Statistiques et Big Data

6

Supposons que je veuille apprendre un classificateur qui prédit si un courrier électronique est un spam. Et supposons que seulement 1% des emails sont du spam. La chose la plus simple à faire serait d'apprendre le classificateur trivial qui dit qu'aucun des courriels n'est du spam. Ce classificateur nous donnerait …

42 machine-learning classification

2

Différentes façons d'écrire les termes d'interaction dans lm?

J'ai une question sur le meilleur moyen de spécifier une interaction dans un modèle de régression. Considérez les données suivantes: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), …

42 r regression interaction

3

Quelle est la distribution de la distance euclidienne entre deux variables aléatoires normalement distribuées?

Supposons que deux objets dont l'emplacement exact sont inconnus, mais distribués selon des distributions normales avec des paramètres connus (par exemple, et . Nous pouvons supposer qu'il s'agit de deux normales normales à deux variables, telles que les positions sont décrites par une distribution sur les (c.-à-d. Que et sont …

42 normal-distribution distance-functions

5

Corrélations entre variables continues et catégorielles (nominales)

J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.ρρ\rho Lors de mes recherches sur Internet, j’ai …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Comment interpréter les poids des entités SVM?

J'essaie d'interpréter les poids variables donnés en ajustant un SVM linéaire. (J'utilise scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Je ne trouve rien dans la documentation qui indique spécifiquement comment ces poids sont calculés ou interprétés. Le signe du poids a-t-il quelque chose à voir …

42 svm feature-selection python scikit-learn

4

Qu'est-ce que la perplexité?

Je suis tombé sur un terme de perplexité qui fait référence à la probabilité inverse logarithmique sur des données invisibles. Un article de Wikipedia sur la perplexité ne donne pas un sens intuitif pour la même chose. Cette mesure de perplexité a été utilisée dans le papier pLSA . Quelqu'un …

42 measurement perplexity

6

Importance de la normalisation de la réponse locale dans CNN

J'ai découvert qu'Imagenet et d'autres grands réseaux CNN utilisent des couches de normalisation de réponse locale. Cependant, je ne peux pas trouver autant d'informations à leur sujet. Quelle est leur importance et quand doivent-ils être utilisés? De http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "La couche de normalisation de la réponse locale effectue une sorte …

41 deep-learning convolution conv-neural-network

10

Vos chances de mourir dans un accident d'avion sont-elles réduites si vous volez en direct?

J'ai récemment eu un désaccord avec un ami sur le fait de minimiser les risques de mourir dans un avion à la suite d'un accident. C'est une question statistique rudimentaire. Il a déclaré qu'il préférait se rendre directement à destination, car cela réduirait la probabilité qu'il meure dans un accident …

41 independence transportation

2

Utilisation de lmer pour le modèle linéaire à effets mixtes à mesures répétées

EDIT 2: Au départ, je pensais que je devais exécuter une ANOVA à deux facteurs avec des mesures répétées d'un facteur, mais je pense maintenant qu'un modèle linéaire à effets mixtes fonctionnera mieux pour mes données. Je pense que je sais presque ce qui doit se passer, mais je suis …

41 r anova mixed-model repeated-measures lme4-nlme

2

Pandas / Statsmodel / Scikit-learn

Les pandas, modèles de statistiques et Scikit-learn sont-ils des implémentations différentes d'opérations d'apprentissage automatique / statistiques, ou sont-ils complémentaires les uns des autres? Lequel de ceux-ci a la fonctionnalité la plus complète? Lequel est activement développé et / ou soutenu? Je dois mettre en œuvre la régression logistique. Avez-vous des …

41 machine-learning python scikit-learn statsmodels pandas

5

De bons jeux pour apprendre la pensée statistique?

Existe-t-il des jeux dans lesquels le joueur "pense comme un statisticien"? Par exemple, lightbot vous amène à "penser comme un programmeur" (de manière très basique). Existe-t-il des jeux - conçus pour le divertissement ou l'enseignement - qui permettent de se familiariser avec les concepts de base tels que la corrélation, …

41 teaching games application

9

Corrélation ne signifie pas causalité; mais qu'en est-il quand l'une des variables est le temps?

Je sais que cette question a été posée un milliard de fois, donc, après avoir regardé en ligne, je suis pleinement convaincu que la corrélation entre 2 variables n'implique pas une causalité. Au cours de l'une de mes conférences de statistiques d'aujourd'hui, nous avons entendu une conférence d'un physicien sur …

41 correlation mathematical-statistics causality

1

Quelqu'un peut-il expliquer le concept de «capacité d'échange»?

Je vois le concept d '«échangeable» utilisé dans différents contextes (par exemple, les modèles bayésiens) mais je n'ai jamais très bien compris le terme. Que signifie ce concept? Dans quelles circonstances ce concept est-il invoqué et pourquoi?

41 bayesian intuition exchangeability

4

OpenBugs contre JAGS

Je suis sur le point d'essayer un environnement de type BUGS pour estimer les modèles bayésiens. Y at-il des avantages importants à considérer dans le choix entre OpenBugs ou JAGS? L'un est-il susceptible de remplacer l'autre dans un avenir prévisible? Je vais utiliser le sampler choisi avec Gibbs avec R. …

41 r software bugs jags gibbs

10

Pourquoi 600 sur 1000 sont-ils plus convaincants que 6 sur 10?

Regardez cet extrait du "Manuel d'étude des compétences", Palgrave, 2012, de Stella Cottrell, page 155: Pourcentages Remarquez quand des pourcentages sont donnés. Supposons plutôt que la déclaration ci-dessus se lise: 60% des gens préféraient les oranges; 40% ont déclaré préférer les pommes. Cela semble convaincant: les quantités numériques sont données. …

41 statistical-significance sample-size percentage