Quelles théories chaque statisticien devrait-il connaître?


30

J'y pense d'un point de vue des exigences minimales et très basiques. Quelles sont les théories clés qu'un statisticien de l'industrie (et non universitaire) devrait connaître, comprendre et utiliser régulièrement?

Un grand qui vient à l'esprit est la loi des grands nombres . Quels sont les plus essentiels pour appliquer la théorie statistique à l'analyse des données?

Réponses:


41

Franchement, je ne pense pas que la loi des grands nombres ait un rôle énorme dans l'industrie. Il est utile de comprendre les justifications asymptotiques des procédures courantes, telles que les estimations et les tests du maximum de vraisemblance (y compris les GLM omniimportants et la régression logistique, en particulier), le bootstrap, mais ce sont des problèmes de distribution plutôt que de probabilité de toucher un mauvais échantillon. .

Au-delà des sujets déjà mentionnés (GLM, inférence, bootstrap), le modèle statistique le plus courant est la régression linéaire, donc une compréhension approfondie du modèle linéaire est indispensable. Il est possible que vous ne dirigiez jamais l'ANOVA dans votre vie industrielle, mais si vous ne la comprenez pas, vous ne devriez pas être appelé statisticien.

Il existe différents types d'industries. En pharmacie, vous ne pouvez pas gagner votre vie sans essais randomisés et régression logistique. Dans les statistiques d'enquête, vous ne pouvez pas gagner votre vie sans l'estimateur de Horvitz-Thompson et les ajustements de non-réponse. Dans les statistiques liées à l'informatique, vous ne pouvez pas gagner votre vie sans apprentissage statistique et exploration de données. Dans les groupes de réflexion sur les politiques publiques (et, de plus en plus, les statistiques de l'éducation), vous ne pouvez pas gagner votre vie sans estimateurs de causalité et d'effet de traitement (qui impliquent de plus en plus d'essais randomisés). Dans la recherche marketing, vous devez avoir un mélange de connaissances économiques avec la théorie de la mesure psychométrique (et vous ne pouvez apprendre ni l'un ni l'autre dans un service de statistiques typique). Les statistiques industrielles fonctionnent avec leurs propres paradigmes particuliers à six sigma qui ne sont connectés qu'à distance aux statistiques traditionnelles; une liaison plus forte peut être trouvée dans la conception de matériel d'expériences. Le matériel de Wall Street serait l'économétrie financière, jusqu'au calcul stochastique. Ce sont des compétences TRÈS disparates, et le terme «industrie» est encore plus mal défini que «université». Je ne pense pas que quiconque puisse prétendre en savoir plus de deux ou trois de ce qui précède en même temps.

Cependant, les compétences de haut niveau qui seraient universellement requises dans "l'industrie" (quoi que cela puisse signifier pour vous) seraient la gestion du temps, la gestion de projet et la communication avec des clients moins avertis statistiquement. Donc, si vous voulez vous préparer au placement dans l'industrie, suivez des cours en école de commerce sur ces sujets.

MISE À JOUR: Le message original a été écrit en février 2012; ces jours-ci (mars 2014), vous devriez probablement vous appeler "un scientifique des données" plutôt qu'un "statisticien" pour trouver un travail à chaud dans l'industrie ... et mieux apprendre quelques Hadoop à suivre avec cette auto-proclamation.


1
Très bonne réponse. Merci d'avoir souligné certaines des grandes différences entre les statisticiens au sein de l'industrie. Cela aide à motiver ma question parce que je crois que beaucoup de gens ont une idée différente de ce qu'est / fait un statisticien. Je suppose que j'essayais de savoir où tout cela se recoupait avec une compréhension de base. De plus, j'apprécie vraiment votre dernier paragraphe sur les sujets commerciaux et leur importance. Grands points mais j'aimerais quand même voir si quelqu'un peut ajouter à la conversation avant d'accepter.
bnjmn

Je suis perplexe devant ces «paradigmes Six Sigma particuliers», «connectés à distance aux statistiques traditionnelles» avec lesquelles vous dites que les statistiques industrielles fonctionnent. Cela me semble tout à fait orthodoxe, mis à part les différences de terminologie trouvées entre tous ces sous-domaines.
Scortchi - Réintégrer Monica

4
@Scortchi, je n'ai pas pu franchir ces différences terminologiques, franchement. Je sais aussi que les approximations normales sont presque inutiles dans la queue, donc la probabilité de 6 sigma peut être 109
décalée

Assez juste: j'aurais dit analyse des systèmes de mesure (accord inter-évaluateurs, études de reproductibilité et de répétabilité des jauges), contrôle statistique des processus, analyse de fiabilité (alias analyse de survie) et conception expérimentale (plans factoriels (fractionnels), méthodologie de la surface de réponse ) étaient caractéristiques des statistiques industrielles.
Scortchi - Réintégrer Monica

12

Je pense avoir une bonne compréhension des problèmes liés au compromis biais-variance . La plupart des statisticiens finiront, à un moment donné, par analyser un ensemble de données suffisamment petit pour que la variance d'un estimateur ou les paramètres du modèle soient suffisamment élevés pour que le biais soit une considération secondaire.


11

Pour souligner le super évident:

Théorème de la limite centrale

car il permet aux praticiens d'approximer les valeurs de dans de nombreuses situations où l'obtention de valeurs de exactes est intraitable. Dans le même ordre d'idées, tout praticien qui réussit serait bien servi pour se familiariser, en général, avecpp

Bootstrapping


8

Je ne dirais pas que cela est très similaire à quelque chose comme la loi des grands nombres ou le théorème de la limite centrale, mais parce que faire des inférences sur la causalité est souvent central, comprendre le travail de Judea Pearl sur l'utilisation de graphiques structurés pour modéliser la causalité est quelque chose que les gens devraient connaître. avec. Il fournit un moyen de comprendre pourquoi les études expérimentales et observationnelles diffèrent en ce qui concerne les inférences causales qu'elles offrent, et offre des moyens de traiter les données d'observation. Pour un bon aperçu, son livre est ici .


2
Il y a aussi le cadre contrefactuel de Rubin; il y a aussi la modélisation d'équations structurelles et les techniques de variables instrumentales économétriques ... dont certaines décrites dans la Mostly Harmless Econometrics qui sont les meilleurs livres de statistiques écrits par des non-statisticiens.
StasK

7

Une bonne compréhension du problème de fond à traiter est aussi importante que toute approche statistique particulière. Un bon scientifique de l'industrie est plus susceptible qu'un statisticien sans ces connaissances de trouver une solution raisonnable à son problème. Un statisticien possédant des connaissances approfondies peut vous aider.


6

La méthode Delta, comment calculer la variance de statistiques bizarres et trouver leur efficacité relative asymptotique, pour recommander des changements de variable et expliquer les gains d'efficacité en "estimant la bonne chose". En conjonction avec cela, l'inégalité de Jensen pour comprendre les GLM et les types étranges de biais qui surviennent dans les transformations comme ci-dessus. Et, maintenant que le biais et la variance sont mentionnés, le concept de compromis biais-variance et MSE en tant que mesure objective de la précision prédictive.


6

À mon avis, l'inférence statistique est la plus importante pour un praticien. L'inférence comporte deux parties: 1) estimation et 2) test d'hypothèse. Le test d'hypothèse est important. Étant donné que, dans l'estimation, il s'agit principalement d'une procédure unique, l'estimation du maximum de vraisemblance a été suivie et la plupart des statistiques sont disponibles (il n'y a donc pas de confusion).

Les questions fréquentes des praticiens portent sur des tests importants de l'analyse des différences ou des causes. Des tests d'hypothèses importants peuvent être trouvés dans ce lien .

Connaître les modèles linéaires, GLM ou en général la modélisation statistique est nécessaire pour l'interprétation de la causalité. Je suppose que l'avenir de l'analyse des données inclura l'inférence bayésienne.


0

L'inférence occasionnelle est indispensable. Et comment résoudre ce problème fondamental, vous ne pouvez pas remonter dans le temps et ne pas donner de traitement à quelqu'un. Lisez des articles sur Rubin, Fisher, le fondateur d'un étudiant en statistiques modernes.) .... Ce qu'il faut apprendre pour résoudre ce problème, la randomisation appropriée et comment la loi des grands nombres dit que les choses sont correctement randomisées, test d'hypothèse, résultats potentiels (tient contre l'hypothèse d'hétroscastistie et c'est génial avec le manque), l'appariement (idéal pour le manque mais les résultats potentiels sont meilleurs parce que c'est plus généralisé, je veux dire pourquoi apprendre une tonne de choses compliquées quand on ne peut apprendre qu'une chose compliquée), Bootstrap, statistiques bayésiennes bien sûr (régression bayésienne , régression bayésienne naïve, facteurs bayésiens) et alternatives non papétriques.

Normalement, dans la pratique, il suffit de suivre ces étapes générales,

En ce qui concerne un commentaire précédent, vous devez généralement commencer par une ANOVA (effets aléatoires ou effets fixes et transformer les types continus en bacs), puis utiliser une régression (qui si vous transformez et modifiez peut parfois être aussi bonne qu'une ANOVA mais ne la battez jamais) pour voir quels traitements spécifiques sont significatifs (opposé à faire plusieurs tests t et à utiliser une correction comme Holm methid), utilisez une régression.

Dans les cas où vous devez prévoir les choses, utilisez la régression bayasienne.

Le manque à plus de 5% utilise les résultats potentiels

Une autre branche de l'analyse de données est l'apprentissage automatique supervisé qui doit être mentionné

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.