Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Pourquoi l'ANOVA est-elle équivalente à la régression linéaire?

J'ai lu que l'ANOVA et la régression linéaire sont la même chose. Comment peut-il en être ainsi si on considère que la sortie de l'ANOVA produit une valeur de et une valeur de p sur la base de laquelle vous concluez si la moyenne des échantillons d'un échantillon à l'autre …

50 regression anova

Quel est le meilleur moyen de retenir la différence entre sensibilité, spécificité, précision, exactitude et rappel?

Malgré avoir vu ces termes 502847894789 fois, je ne me souviens plus jamais de la différence entre sensibilité, spécificité, précision, exactitude et rappel. Ce sont des concepts assez simples, mais les noms me sont très peu intuitifs, alors je continue à les confondre. Quelle est une bonne façon de penser …

50 terminology accuracy sensitivity-specificity

Seuil de probabilité de classification

J'ai une question concernant la classification en général. Soit f un classificateur, qui donne un ensemble de probabilités à partir de données D. Normalement, on dirait: si P (c | D)> 0.5, nous assignerons une classe 1, sinon 0 (que ce soit un binaire classification). Ma question est la suivante: …

49 machine-learning classification binary-data threshold

Quelle doit être la taille du lot pour la descente de gradient stochastique?

Je comprends que la descente de gradient stochastique peut être utilisée pour optimiser un réseau de neurones en utilisant la rétropropagation en mettant à jour chaque itération avec un échantillon différent de l'ensemble de données d'apprentissage. Quelle doit être la taille du lot?

49 machine-learning neural-networks gradient-descent backpropagation

Comment interpréter la comparaison des moyennes de différentes tailles d’échantillons?

Prenons le cas des cotes de livres sur un site Web. Le livre A est noté par 10 000 personnes avec une note moyenne de 4,25 et la variance . De même, le livre B a été évalué par 100 personnes et a été noté 4.5 avec σ = 0.25 …

49 t-test mean sample-size

Pourquoi le coefficient de corrélation entre les variables aléatoires X et XY a-t-il tendance à être de 0,7?

Tiré de Statistiques pratiques pour la recherche médicale où Douglas Altman écrit à la page 285: ... pour deux quantités quelconques X et Y, X sera corrélé à XY. En effet, même si X et Y sont des échantillons de nombres aléatoires, on s’attendrait à ce que la corrélation de …

49 correlation random-variable intuition

La «note moyenne» d'Amazon est-elle trompeuse?

Si je comprends bien, les évaluations de livre sur une échelle de 1 à 5 sont des scores de Likert. C'est-à-dire qu'un 3 pour moi peut ne pas être nécessairement un 3 pour quelqu'un d'autre. C'est une échelle ordinale IMO. Il ne faut pas vraiment utiliser les échelles ordinales mais …

49 mean ordinal-data likert

Bootstrap contre jackknife

Les méthodes bootstrap et jackknife peuvent être utilisées pour estimer le biais et l’erreur type d’une estimation et les mécanismes des deux méthodes de ré-échantillonnage ne sont pas très différents: échantillonnage avec remplacement ou omission d’une observation à la fois. Toutefois, le jackknife n’est pas aussi populaire que le bootstrap …

49 r confidence-interval bootstrap jackknife

Pourquoi la régression logistique est-elle un classifieur linéaire?

Puisque nous utilisons la fonction logistique pour transformer une combinaison linéaire de l’entrée en une sortie non linéaire, comment une régression logistique peut-elle être considérée comme un classifieur linéaire? La régression linéaire est semblable à un réseau de neurones sans la couche cachée, alors pourquoi les réseaux de neurones sont-ils …

49 logistic classification neural-networks

Calculer manuellement la valeur P à partir de la valeur t dans le test t

J'ai un échantillon de données avec 31 valeurs. J'ai exécuté un test t bilatéral en utilisant R pour vérifier si la moyenne vraie est égale à 10: t.test(x=data, mu=10, conf.level=0.95) Sortie: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 …

49 r statistical-significance t-test p-value

Quelle est la différence entre les effets aléatoires, les effets fixes et le modèle marginal?

J'essaie d'élargir mes connaissances en statistiques. Je viens d'un milieu de sciences physiques avec une approche de test statistique "basée sur des recettes", où nous disons que le test est continu, qu'il est distribué normalement - régression MLS . Dans ma lecture, j'ai rencontré les termes: modèle à effets aléatoires, …

49 random-effects-model fixed-effects-model marginal

Temps de calcul aléatoire de la forêt en R

J'utilise le package party en R avec 10 000 lignes et 34 fonctionnalités, et certaines fonctionnalités factorielles comportent plus de 300 niveaux. Le temps de calcul est trop long. (Cela a pris 3 heures jusqu'à présent et ce n'est pas fini.) Je veux savoir quels éléments ont un effet important …

49 r random-forest

Mesures de performance pour évaluer l'apprentissage non supervisé

En ce qui concerne l'apprentissage non supervisé (comme la mise en cluster), existe-t-il des métriques permettant d'évaluer les performances?

49 machine-learning clustering data-mining unsupervised-learning

Que sont les variables aléatoires?

Comment expliqueriez-vous iid (indépendant et identiquement distribué) à des personnes non techniques?

49 random-variable intuition

Corrélation = 0.2 signifie-t-il qu'il existe une association «chez seulement 1 personne sur 5»?

Dans le cerveau idiot: un neuroscientifique explique ce que fait réellement votre tête , a écrit Dean Burnett La corrélation entre la hauteur et l’intelligence est habituellement de , ce qui signifie que la hauteur et l’intelligence ne semblent être associées que chez 1 personne sur 5 .0,20.20.2111555 Cela me …

48 correlation neuroscience

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.