Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Il y a longtemps, j'ai appris qu'une distribution normale était nécessaire pour utiliser un test T à deux échantillons. Aujourd'hui, une collègue m'a dit qu'elle avait appris que pour N> 50, une distribution normale n'était pas nécessaire. Est-ce vrai? Si vrai est-ce à cause du théorème de la limite centrale?
Si vous pouviez remonter dans le temps et vous dire de lire un livre spécifique au début de votre carrière de statisticien, de quel livre s'agirait-il?
La mathématique a ses fameux problèmes du millénaire (et, historiquement, les 23 de Hilbert ), des questions qui ont contribué à façonner la direction du terrain. Cependant, je ne sais pas ce que seraient les hypothèses de Riemann et les statistiques P vs NP. Alors, quelles sont les questions ouvertes …
Je sais que les gens aiment fermer les doublons, je ne demande donc pas de référence pour commencer à apprendre les statistiques (comme ici ). J'ai un doctorat en mathématiques mais je n'ai jamais appris les statistiques. Quel est le chemin le plus court vers la connaissance équivalente vers un …
"En gros, tous les modèles sont faux, mais certains sont utiles." --- Box, George EP; Norman R. Draper (1987). Modèles empiriques de construction et surfaces de réaction, p. 424, Wiley. ISBN 0471810339. Quel est exactement le sens de la phrase ci-dessus?
J'ai un ensemble de données avec environ 30 variables indépendantes et j'aimerais construire un modèle linéaire généralisé (GLM) pour explorer la relation entre elles et la variable dépendante. Je suis conscient que la méthode qui m'a été enseignée pour cette situation, la régression par étapes, est maintenant considérée comme un …
Récemment, j'ai beaucoup lu sur ce site (@Aniko, @Dikran Marsupial, @Erik) et ailleurs sur le problème du surajustement avec une validation croisée - (Smialowski et al 2010, Bioinformatics, Hastie, Éléments d'apprentissage statistique). Il est suggéré que toute sélection de caractéristique supervisée (utilisant la corrélation avec les étiquettes de classe) effectuée …
Je comprends les principes de base de l'objectif d'un support vectoriel en termes de classification d'un jeu d'entrées dans plusieurs classes différentes, mais ce que je ne comprends pas, ce sont certains détails de base. Pour commencer, l'utilisation des variables Slack me laisse un peu perplexe. Quel est leur but? …
Je suis un peu confus au sujet de la sélection des fonctionnalités et de l'apprentissage automatique, et je me demandais si vous pouviez m'aider. J'ai un jeu de données de micropuces qui est classé en deux groupes et qui comporte des milliers de fonctionnalités. Mon objectif est d'obtenir un petit …
Je lisais Éléments d'apprentissage statistique et j'aimerais savoir pourquoi le lasso fournit une sélection de variables et non la régression de crête. Les deux méthodes minimisent la somme des carrés résiduels et ont une contrainte sur les valeurs possibles des paramètres . Pour le lasso, la contrainte est , alors …
Étant donné que la régression logistique est un statistique modèle de classification prises avec des variables dépendantes, pourquoi pas appelé Classification logistique ? Le nom "Régression" ne devrait-il pas être réservé aux modèles traitant des variables dépendantes continues?
J'utilise l'algorithme de forêt aléatoire en tant que classificateur robuste de deux groupes dans une étude de microréseau comportant des milliers d'éléments. Quelle est la meilleure façon de présenter la forêt aléatoire de manière à ce qu'il y ait suffisamment d'informations pour la rendre reproductible dans un document? Existe-t-il une …
Il y a quelques années, j'ai conçu un détecteur de rayonnement qui fonctionne en mesurant l'intervalle entre les événements plutôt qu'en les comptant. Mon hypothèse était que, lors de la mesure d'échantillons non contigus, je mesurerais en moyenne la moitié de l'intervalle réel. Cependant, lorsque j'ai testé le circuit avec …
J'essaie de comprendre la différence entre différentes méthodes de rééchantillonnage (simulation de Monte Carlo, amorçage paramétrique, amorçage non paramétrique, jackknifing, validation croisée, tests de randomisation et de permutation) et leur mise en œuvre dans mon propre contexte en utilisant R. Disons que j'ai la situation suivante - je veux effectuer …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.