Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

3
Pourquoi nous soucions-nous tant des termes d'erreur (et de l'homoscédasticité) normalement distribués dans la régression linéaire alors que nous n'en avons pas besoin?
Je suppose que je suis frustré chaque fois que j'entends quelqu'un dire que la non-normalité des résidus et / ou l'hétéroscédasticité enfreignent les suppositions de la méthode MCO. Pour estimer les paramètres dans un modèle MLS, aucune de ces hypothèses n'est nécessaire selon le théorème de Gauss-Markov. Je vois à …

3
Effectuer la normalisation des fonctionnalités avant ou dans la validation du modèle?
Une bonne pratique courante en Machine Learning est de normaliser les caractéristiques ou de normaliser les données des variables prédites, centrer les données soustrayant la moyenne et les normaliser en les divisant par la variance (ou l’écart type). Pour nous maîtriser et pour autant que je sache, nous faisons cela …

4
Cumming (2008) affirme que la distribution des valeurs de p obtenues lors de réplications ne dépend que de la valeur de p d'origine. Comment cela peut-il être vrai?
Je lisais l'article de 2008 de Geoff Cumming sur Replication and Intervals: les valeurs ne prédisent que très vaguement l'avenir, mais les intervalles de confiance sont bien meilleurs pppppp p p[environ 200 citations dans Google Scholar] - et je suis dérouté par l'une de ses revendications centrales. C'est l'un des …





3
ANOVA hypothèse normalité / distribution normale des résidus
La page Wikipedia sur ANOVA énumère trois hypothèses , à savoir: Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique. Normalité - les distributions des résidus sont normales. Égalité (ou "homogénéité") des variances, appelée homoscédasticité ... Le point d’intérêt ici est la deuxième hypothèse. Plusieurs …

2
Quelle est la relation entre un test du chi carré et un test de proportions égales?
Supposons que j'ai trois populations avec quatre caractéristiques mutuellement exclusives. Je prélève des échantillons aléatoires dans chaque population et crée un tableau croisé ou un tableau de fréquences pour les caractéristiques que je mesure. Ai-je raison de dire que: Si je voulais vérifier s'il existait une relation entre les populations …

8
Excel comme un atelier de statistiques
Il semble que beaucoup de personnes (y compris moi-même) aiment effectuer une analyse exploratoire de données dans Excel. Certaines limitations, telles que le nombre de lignes autorisées dans une feuille de calcul, sont pénibles, mais dans la plupart des cas, il n’est pas impossible d’utiliser Excel pour jouer avec les …

10
Clustering avec une matrice de distance
J'ai une matrice (symétrique) Mqui représente la distance entre chaque paire de nœuds. Par exemple, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 …
52 clustering 

14
Quelle est la caractérisation la plus surprenante de la distribution gaussienne (normale)?
Une distribution gaussienne normalisée sur peut être définie en donnant explicitement sa densité: 1RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} ou sa fonction caractéristique. Comme rappelé dans cette question, il s'agit également de la seule distribution pour laquelle la moyenne et la variance de l'échantillon sont indépendantes. Quelles sont les autres caractérisations alternatives surprenantes des …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.