Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

3
Visualiser un million, édition PCA
Est-il possible de visualiser les résultats de l'analyse des composants principaux de manière à donner plus d'informations que les simples tableaux récapitulatifs? Est-il possible de le faire lorsque le nombre d'observations est important, disons ~ 1e4? Et est-il possible de le faire dans R [autres environnements bienvenus]?

3
Pourquoi la sélection des variables est-elle nécessaire?
Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment: Coefficients biaisés loin de zéro. Erreurs standard trop petites et intervalles de confiance trop étroits. Testez les statistiques …




3
Comment les corrélations gamma Goodman-Kruskal et Kendall tau ou Spearman rho se comparent-elles?
Dans mon travail, nous comparons les classements prévus aux classements réels pour certains ensembles de données. Jusqu'à récemment, nous utilisions Kendall-Tau seul. Un groupe travaillant sur un projet similaire a suggéré d'essayer d'utiliser le Goodman-Kruskal Gamma à la place, et qu'ils l'ont préféré. Je me demandais quelles étaient les différences …

6
Quelqu'un peut-il offrir un exemple de distribution unimodale qui a une asymétrie de zéro mais qui n'est pas symétrique?
En mai 2010, l'utilisateur de Wikipédia Mcorazao a ajouté une phrase à l' article sur l' asymétrie : "Une valeur nulle indique que les valeurs sont distribuées de manière relativement uniforme des deux côtés de la moyenne, ce qui implique généralement, mais pas nécessairement, une distribution symétrique." Cependant, la page …



3
Compréhension des vues enchâssées sur les valeurs p
Parfois, dans les rapports, j'inclus un avertissement concernant les valeurs de p et d'autres statistiques inférentielles que j'ai fournies. Je dis que puisque l'échantillon n'était pas aléatoire, de telles statistiques ne s'appliqueraient pas strictement. Ma formulation spécifique est généralement donnée dans une note de bas de page: "Alors que, strictement …


1
Comparaisons multiples sur un modèle à effets mixtes
J'essaie d'analyser certaines données à l'aide d'un modèle à effets mixtes. Les données que j'ai recueillies représentent le poids de certains jeunes animaux de génotype différent au fil du temps. J'utilise l'approche proposée ici: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ En particulier, j'utilise la solution # 2 J'ai donc quelque chose comme require(nlme) model <- …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.