Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

6
Pourquoi sous-échantillonner?
Supposons que je veuille apprendre un classificateur qui prédit si un courrier électronique est un spam. Et supposons que seulement 1% des emails sont du spam. La chose la plus simple à faire serait d'apprendre le classificateur trivial qui dit qu'aucun des courriels n'est du spam. Ce classificateur nous donnerait …



5
Corrélations entre variables continues et catégorielles (nominales)
J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.ρρ\rho Lors de mes recherches sur Internet, j’ai …

5
Comment interpréter les poids des entités SVM?
J'essaie d'interpréter les poids variables donnés en ajustant un SVM linéaire. (J'utilise scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Je ne trouve rien dans la documentation qui indique spécifiquement comment ces poids sont calculés ou interprétés. Le signe du poids a-t-il quelque chose à voir …

4
Qu'est-ce que la perplexité?
Je suis tombé sur un terme de perplexité qui fait référence à la probabilité inverse logarithmique sur des données invisibles. Un article de Wikipedia sur la perplexité ne donne pas un sens intuitif pour la même chose. Cette mesure de perplexité a été utilisée dans le papier pLSA . Quelqu'un …

6
Importance de la normalisation de la réponse locale dans CNN
J'ai découvert qu'Imagenet et d'autres grands réseaux CNN utilisent des couches de normalisation de réponse locale. Cependant, je ne peux pas trouver autant d'informations à leur sujet. Quelle est leur importance et quand doivent-ils être utilisés? De http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "La couche de normalisation de la réponse locale effectue une sorte …



2
Pandas / Statsmodel / Scikit-learn
Les pandas, modèles de statistiques et Scikit-learn sont-ils des implémentations différentes d'opérations d'apprentissage automatique / statistiques, ou sont-ils complémentaires les uns des autres? Lequel de ceux-ci a la fonctionnalité la plus complète? Lequel est activement développé et / ou soutenu? Je dois mettre en œuvre la régression logistique. Avez-vous des …

5
De bons jeux pour apprendre la pensée statistique?
Existe-t-il des jeux dans lesquels le joueur "pense comme un statisticien"? Par exemple, lightbot vous amène à "penser comme un programmeur" (de manière très basique). Existe-t-il des jeux - conçus pour le divertissement ou l'enseignement - qui permettent de se familiariser avec les concepts de base tels que la corrélation, …



4
OpenBugs contre JAGS
Je suis sur le point d'essayer un environnement de type BUGS pour estimer les modèles bayésiens. Y at-il des avantages importants à considérer dans le choix entre OpenBugs ou JAGS? L'un est-il susceptible de remplacer l'autre dans un avenir prévisible? Je vais utiliser le sampler choisi avec Gibbs avec R. …
41 r  software  bugs  jags  gibbs 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.