Statistiques et Big Data

7

Il y a longtemps, j'ai appris qu'une distribution normale était nécessaire pour utiliser un test T à deux échantillons. Aujourd'hui, une collègue m'a dit qu'elle avait appris que pour N> 50, une distribution normale n'était pas nécessaire. Est-ce vrai? Si vrai est-ce à cause du théorème de la limite centrale?

77 normal-distribution t-test central-limit-theorem

26

Quel est le livre le plus influent que chaque statisticien devrait lire?

Si vous pouviez remonter dans le temps et vous dire de lire un livre spécifique au début de votre carrière de statisticien, de quel livre s'agirait-il?

77 references

7

Quels sont les "gros problèmes" dans les statistiques?

La mathématique a ses fameux problèmes du millénaire (et, historiquement, les 23 de Hilbert ), des questions qui ont contribué à façonner la direction du terrain. Cependant, je ne sais pas ce que seraient les hypothèses de Riemann et les statistiques P vs NP. Alors, quelles sont les questions ouvertes …

77 history

9

Un mathématicien veut avoir les connaissances équivalentes à un diplôme de statistiques de qualité

Je sais que les gens aiment fermer les doublons, je ne demande donc pas de référence pour commencer à apprendre les statistiques (comme ici ). J'ai un doctorat en mathématiques mais je n'ai jamais appris les statistiques. Quel est le chemin le plus court vers la connaissance équivalente vers un …

77 references careers

5

Validation croisée en anglais simplifié?

Comment décririez-vous la validation croisée à une personne sans formation en analyse de données?

77 cross-validation

14

Quel est le sens de "Tous les modèles sont faux, mais certains sont utiles"

"En gros, tous les modèles sont faux, mais certains sont utiles." --- Box, George EP; Norman R. Draper (1987). Modèles empiriques de construction et surfaces de réaction, p. 424, Wiley. ISBN 0471810339. Quel est exactement le sens de la phrase ci-dessus?

76 modeling

5

Quelles sont les alternatives modernes et facilement utilisables à la régression pas à pas?

J'ai un ensemble de données avec environ 30 variables indépendantes et j'aimerais construire un modèle linéaire généralisé (GLM) pour explorer la relation entre elles et la variable dépendante. Je suis conscient que la méthode qui m'a été enseignée pour cette situation, la régression par étapes, est maintenant considérée comme un …

76 regression generalized-linear-model model-selection stepwise-regression

3

Sélection des fonctionnalités et validation croisée

Récemment, j'ai beaucoup lu sur ce site (@Aniko, @Dikran Marsupial, @Erik) et ailleurs sur le problème du surajustement avec une validation croisée - (Smialowski et al 2010, Bioinformatics, Hastie, Éléments d'apprentissage statistique). Il est suggéré que toute sélection de caractéristique supervisée (utilisant la corrélation avec les étiquettes de classe) effectuée …

76 cross-validation feature-selection

1

Aidez-moi à comprendre les machines à vecteurs de support

Je comprends les principes de base de l'objectif d'un support vectoriel en termes de classification d'un jeu d'entrées dans plusieurs classes différentes, mais ce que je ne comprends pas, ce sont certains détails de base. Pour commencer, l'utilisation des variables Slack me laisse un peu perplexe. Quel est leur but? …

76 machine-learning classification svm

6

Sélection des fonctionnalités pour le modèle «final» lors de la validation croisée en apprentissage automatique

Je suis un peu confus au sujet de la sélection des fonctionnalités et de l'apprentissage automatique, et je me demandais si vous pouviez m'aider. J'ai un jeu de données de micropuces qui est classé en deux groupes et qui comporte des milliers de fonctionnalités. Mon objectif est d'obtenir un petit …

76 machine-learning classification cross-validation feature-selection genetics

3

Pourquoi le Lasso fournit-il une sélection variable?

Je lisais Éléments d'apprentissage statistique et j'aimerais savoir pourquoi le lasso fournit une sélection de variables et non la régression de crête. Les deux méthodes minimisent la somme des carrés résiduels et ont une contrainte sur les valeurs possibles des paramètres . Pour le lasso, la contrainte est , alors …

76 regression feature-selection lasso regularization

3

Pourquoi la régression logistique n'est-elle pas appelée classification logistique?

Étant donné que la régression logistique est un statistique modèle de classification prises avec des variables dépendantes, pourquoi pas appelé Classification logistique ? Le nom "Régression" ne devrait-il pas être réservé aux modèles traitant des variables dépendantes continues?

75 regression machine-learning logistic classification terminology

3

Quelle est la meilleure façon de présenter une forêt au hasard dans une publication?

J'utilise l'algorithme de forêt aléatoire en tant que classificateur robuste de deux groupes dans une étude de microréseau comportant des milliers d'éléments. Quelle est la meilleure façon de présenter la forêt aléatoire de manière à ce qu'il y ait suffisamment d'informations pour la rendre reproductible dans un document? Existe-t-il une …

75 r machine-learning classification random-forest microarray

5

S'il vous plaît expliquer le paradoxe de l'attente

Il y a quelques années, j'ai conçu un détecteur de rayonnement qui fonctionne en mesurant l'intervalle entre les événements plutôt qu'en les comptant. Mon hypothèse était que, lors de la mesure d'échantillons non contigus, je mesurerais en moyenne la moitié de l'intervalle réel. Cependant, lorsque j'ai testé le circuit avec …

75 poisson-process paradox

2

Méthodes de rééchantillonnage / simulation: monte carlo, bootstrapping, jackknifing, validation croisée, tests de randomisation et tests de permutation

J'essaie de comprendre la différence entre différentes méthodes de rééchantillonnage (simulation de Monte Carlo, amorçage paramétrique, amorçage non paramétrique, jackknifing, validation croisée, tests de randomisation et de permutation) et leur mise en œuvre dans mon propre contexte en utilisant R. Disons que j'ai la situation suivante - je veux effectuer …

75 r bootstrap resampling jackknife permutation-test