Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

7
Test t pour non normal quand N> 50?
Il y a longtemps, j'ai appris qu'une distribution normale était nécessaire pour utiliser un test T à deux échantillons. Aujourd'hui, une collègue m'a dit qu'elle avait appris que pour N> 50, une distribution normale n'était pas nécessaire. Est-ce vrai? Si vrai est-ce à cause du théorème de la limite centrale?


7
Quels sont les "gros problèmes" dans les statistiques?
La mathématique a ses fameux problèmes du millénaire (et, historiquement, les 23 de Hilbert ), des questions qui ont contribué à façonner la direction du terrain. Cependant, je ne sais pas ce que seraient les hypothèses de Riemann et les statistiques P vs NP. Alors, quelles sont les questions ouvertes …
77 history 




5
Quelles sont les alternatives modernes et facilement utilisables à la régression pas à pas?
J'ai un ensemble de données avec environ 30 variables indépendantes et j'aimerais construire un modèle linéaire généralisé (GLM) pour explorer la relation entre elles et la variable dépendante. Je suis conscient que la méthode qui m'a été enseignée pour cette situation, la régression par étapes, est maintenant considérée comme un …

3
Sélection des fonctionnalités et validation croisée
Récemment, j'ai beaucoup lu sur ce site (@Aniko, @Dikran Marsupial, @Erik) et ailleurs sur le problème du surajustement avec une validation croisée - (Smialowski et al 2010, Bioinformatics, Hastie, Éléments d'apprentissage statistique). Il est suggéré que toute sélection de caractéristique supervisée (utilisant la corrélation avec les étiquettes de classe) effectuée …


6
Sélection des fonctionnalités pour le modèle «final» lors de la validation croisée en apprentissage automatique
Je suis un peu confus au sujet de la sélection des fonctionnalités et de l'apprentissage automatique, et je me demandais si vous pouviez m'aider. J'ai un jeu de données de micropuces qui est classé en deux groupes et qui comporte des milliers de fonctionnalités. Mon objectif est d'obtenir un petit …



3
Quelle est la meilleure façon de présenter une forêt au hasard dans une publication?
J'utilise l'algorithme de forêt aléatoire en tant que classificateur robuste de deux groupes dans une étude de microréseau comportant des milliers d'éléments. Quelle est la meilleure façon de présenter la forêt aléatoire de manière à ce qu'il y ait suffisamment d'informations pour la rendre reproductible dans un document? Existe-t-il une …

5
S'il vous plaît expliquer le paradoxe de l'attente
Il y a quelques années, j'ai conçu un détecteur de rayonnement qui fonctionne en mesurant l'intervalle entre les événements plutôt qu'en les comptant. Mon hypothèse était que, lors de la mesure d'échantillons non contigus, je mesurerais en moyenne la moitié de l'intervalle réel. Cependant, lorsque j'ai testé le circuit avec …

2
Méthodes de rééchantillonnage / simulation: monte carlo, bootstrapping, jackknifing, validation croisée, tests de randomisation et tests de permutation
J'essaie de comprendre la différence entre différentes méthodes de rééchantillonnage (simulation de Monte Carlo, amorçage paramétrique, amorçage non paramétrique, jackknifing, validation croisée, tests de randomisation et de permutation) et leur mise en œuvre dans mon propre contexte en utilisant R. Disons que j'ai la situation suivante - je veux effectuer …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.