Un mathématicien veut avoir les connaissances équivalentes à un diplôme de statistiques de qualité


77

Je sais que les gens aiment fermer les doublons, je ne demande donc pas de référence pour commencer à apprendre les statistiques (comme ici ).

J'ai un doctorat en mathématiques mais je n'ai jamais appris les statistiques. Quel est le chemin le plus court vers la connaissance équivalente vers un diplôme de premier ordre en statistiques BS et comment puis-je mesurer le résultat obtenu?

Si une liste de livres suffit (en supposant que je fasse les exercices, disons), c'est formidable. Oui, je m'attends à ce que les problèmes soient résolus implicitement, mais je souhaite accélérer autant que possible. Je ne cherche pas un traitement incroyablement rigoureux à moins que cela ne fasse partie de ce que les majors statistiques apprennent généralement.


1
Dans quel domaine de mathématiques avez-vous obtenu votre doctorat? Cela pourrait être pertinent.
Mpiktas

7
Pourriez-vous partager avec nous pourquoi vous voulez apprendre les statistiques? Curiosité? Besoin d'un projet ou d'une recherche? Envie de changer d'emploi? Besoin d'enseigner certains cours? Voulez-vous collaborer avec les statisticiens en tant que personne théorique?
whuber

5
Je pense qu'il est presque toujours important de développer une expertise spécifique à un domaine également. Beaucoup de statistiques apprennent les modèles pertinents pour des domaines spécifiques.
Tristan

10
Essayez d’inverser le sens suivant: "le statisticien veut des connaissances équivalentes à un diplôme en mathématiques de qualité" - il n’y aura probablement pas d’itinéraires rapides.
probabilitéislogic

1
"Je sais que les gens aiment fermer les doublons" m'a fait rire.
Mustafa S Eisa

Réponses:


77

(Très) courte histoire

Bref, en un sens, les statistiques sont comme n'importe quel autre domaine technique: il n'y a pas de voie rapide .

Longue histoire

Les programmes de licence en statistiques sont relativement rares aux États-Unis. L'une des raisons pour lesquelles je pense que c'est vrai, c'est qu'il est assez difficile d'intégrer tout ce qui est nécessaire pour bien apprendre les statistiques dans un programme de premier cycle. Cela est particulièrement vrai dans les universités qui ont d'importantes exigences en matière d'enseignement général.

Développer les compétences nécessaires (mathématiques, calcul et intuitives) nécessite beaucoup d'efforts et de temps. Les statistiques peuvent commencer à être comprises à un niveau "opérationnel" assez décent une fois que l'étudiant a maîtrisé le calcul et une quantité décente d'algèbre linéaire et matricielle. Cependant, tout statisticien appliqué sait qu'il est assez facile de se retrouver sur un territoire qui ne se conforme pas à une approche de type «cookie cutter» ou à base de recettes. Pour bien comprendre ce qui se passe sous la surface, il faut au préalablematurité mathématique et, dans le monde actuel, informatique, qui ne sont réellement réalisables que dans les dernières années de la formation de premier cycle. C’est une des raisons pour laquelle la véritable formation statistique débute principalement au niveau des États membres aux États-Unis (l’Inde, avec son ISI dédié, est un peu différent. Un argument similaire pourrait être avancé pour certaines formations basées au Canada. Études statistiques de premier cycle basées en Europe ou en Russie ayant un avis éclairé.)

Presque n'importe quel emploi (intéressant) exigerait une formation de niveau MS et les emplois vraiment intéressants (à mon avis) requièrent essentiellement une formation de niveau doctorat.

Étant donné que vous avez un doctorat en mathématiques, bien que nous ne sachions pas dans quel domaine, voici mes suggestions pour quelque chose de plus proche d’une formation de niveau MS. J'inclus des remarques entre parenthèses pour expliquer les choix.

  1. D. Huff, Comment mentir avec les statistiques . (Très rapide, lecture facile. Montre beaucoup des idées conceptuelles et des pièges, en particulier, dans la présentation de statistiques au profane.)
  2. Mood, Graybill, and Boes, Introduction à la théorie de la statistique , 3e éd., 1974. (Introduction à la statistique théorique au niveau MS. Vous en apprendrez plus sur les distributions d'échantillonnage, l'estimation ponctuelle et les tests d'hypothèses dans un cadre fréquentiste classique. l’opinion est qu’elle est généralement meilleure et un peu plus avancée que ses homologues modernes tels que Casella & Berger ou Rice.)
  3. Seber & Lee, Analyse de régression linéaire , 2e éd. (Présente la théorie de l'estimation ponctuelle et des tests d'hypothèses pour les modèles linéaires, qui est probablement le sujet le plus important à comprendre en statistiques appliquées. Puisque vous possédez probablement un bon fond d'algèbre linéaire, vous devez immédiatement être en mesure de comprendre ce qui se passe géométriquement. Il contient également de bonnes informations sur les problèmes d’évaluation liés à la sélection de modèles, les écarts par rapport aux hypothèses, les prévisions et les versions robustes des modèles linéaires.)
  4. Hastie, Tibshirani et Friedman, Elements of Statistical Learning , 2e éd., 2009. (Ce livre présente un sentiment beaucoup plus appliqué que le précédent et couvre de nombreux sujets modernes liés à l'apprentissage automatique. La principale contribution consiste ici à fournir des interprétations statistiques. de nombreuses idées d’apprentissage automatique, ce qui est particulièrement rentable pour quantifier l’incertitude dans de tels modèles (ce qui a tendance à ne pas être abordé dans les livres d’apprentissage automatique typiques. Disponible légalement gratuitement ici ).
  5. A. Agresti, Categorical Data Analysis , 2e éd. (Bonne présentation de la manière de traiter des données discrètes dans un cadre statistique. Bonne théorie et bons exemples pratiques. Peut-être du côté traditionnel à certains égards.)
  6. Boyd & Vandenberghe, Optimisation convexe . (Un grand nombre des problèmes d’estimation statistique et de test d’hypothèses modernes les plus populaires peuvent être formulés sous forme de problèmes d’optimisation convexe. C’est le cas de nombreuses techniques d’apprentissage automatique, telles que les SVM. Avoir une compréhension plus large et la capacité de reconnaître de tels problèmes comme des programmes convexes est assez précieux, je pense. Disponible légalement gratuitement ici .)
  7. Efron & Tibshirani, Une introduction au bootstrap . (Vous devez au moins vous familiariser avec le bootstrap et les techniques associées. Pour un manuel, c'est une lecture rapide et facile.)
  8. J. Liu, Stratégies de Monte Carlo en calcul scientifique ou P. Glasserman, Méthodes de Monte Carlo en ingénierie financière . (Ce dernier semble très orienté vers un domaine d’application particulier, mais je pense qu’il donnera un bon aperçu et des exemples pratiques de toutes les techniques les plus importantes. Les applications d’ingénierie financière ont été à l’origine de nombreuses recherches de Monte Carlo au cours des dix dernières années environ. .)
  9. E. Tufte, L'affichage visuel d'informations quantitatives . (Une bonne visualisation et présentation des données est [fortement] sous-estimée, même par les statisticiens.)
  10. J. Tukey, Analyse de données exploratoire . (Standard. Oldie, mais goodie. Certains diront peut-être dépassé, mais ça vaut le coup de regarder.)

Compléments

Voici quelques autres livres, la plupart du temps un peu plus avancés, de nature théorique et / ou auxiliaire, qui sont utiles.

  1. FA Graybill, théorie et application du modèle linéaire . (Ancienne, terrible composition, mais couvrant tout le même terrain de Seber & Lee, et plus encore. Je dis démodé car des traitements plus modernes auraient probablement tendance à utiliser la SVD pour unifier et simplifier beaucoup de techniques et de preuves.)
  2. FA Graybill, matrices avec applications en statistiques . (Texte associé à ce qui précède. Une profusion de résultats de bonne algèbre matricielle utiles aux statistiques ici. Excellente référence documentaire.)
  3. Devroye, Gyorfi et Lugosi, Une théorie probabiliste de la reconnaissance des formes . (Texte rigoureux et théorique sur la quantification de la performance dans les problèmes de classification.)
  4. Brockwell & Davis, Séries temporelles: théorie et méthodes . (Analyse chronologique classique. Traitement théorique. Pour les textes plus appliqués, les textes de Box, Jenkins & Reinsel ou Ruey Tsay sont corrects.)
  5. Motwani et Raghavan, Algorithmes Randomisés . (Méthodes probabilistes et analyse pour les algorithmes de calcul.)
  6. D. Williams, Probabilité et Martingales et / ou R. Durrett, Probabilité: Théorie et exemples . (Au cas où vous auriez vu la théorie de la mesure, disons, au niveau de DL Cohn, mais peut-être pas la théorie des probabilités. Les deux sont utiles pour une mise à niveau rapide si vous connaissez déjà la théorie de la mesure.)
  7. F. Harrell, Stratégies de modélisation par régression . (Pas aussi bon que Elements of Statistical Learning [ESL], mais a une approche différente et intéressante. Couvre plus de sujets "traditionnels" de statistiques appliquées que l'ALS et mérite donc d'être abordé.)

Textes plus avancés (niveau doctorat)

  1. Lehmann et Casella, théorie de l'estimation ponctuelle . (Traitement au doctorat de l'estimation ponctuelle. Une partie du défi de ce livre consiste à le lire et à comprendre ce qui est une faute de frappe et ce qui ne l'est pas. Quand vous vous verrez les reconnaître rapidement, vous comprendrez que vous comprenez. de ce type, surtout si vous plongez dans les problèmes.)

  2. Lehmann et Romano, Test d'hypothèses statistiques . (Traitement au niveau du doctorat des tests d'hypothèses. Pas autant de fautes de frappe que TPE ci-dessus.)

  3. A. van der Vaart, Statistiques asymptotiques . (Un beau livre sur la théorie asymptotique de la statistique avec de bons conseils sur les domaines d'application. Ce n'est pas un livre appliqué. Mon seul reproche, c'est que des notations assez bizarres sont utilisées et que des détails sont parfois balayés sous le tapis.)


1
@ cardinal, les universités ex-soviétiques ont des études de statistiques de premier cycle distinctes. À l'Université de Vilnius, par exemple, vous pouvez obtenir un baccalauréat en statistiques. De ce que je vois avec les étudiants, je suis tout à fait d’accord pour dire que des diplômes de maîtrise ou même de doctorat sont nécessaires pour des emplois intéressants.
Mpiktas

1
@cardinal, @mpiktas 4 ans BS + 2 yearts en MS + 4 ans en doctorat fait dix ans pour apprendre quelque chose d' intéressant :) Je donnerais à cette grande réponse si possible. La plupart des livres sont nouveaux pour moi. +
Dmitrij Celov

2
@ John Salvatier, vous avez raison de dire que ces méthodes ne sont pas couvertes dans ce texte. Là encore, cela me semble plus une question de goût, d’autant plus que le texte n’a pas pour objectif principal les algorithmes. À savoir, vos préoccupations sont directement abordées par les auteurs dans l'introduction (p. 13).
cardinal

2
@ cardinal: les universités scandinaves proposent également des diplômes de licence. Cela étant dit, je pense que les statisticiens se prennent un peu trop au sérieux. Je ne suis pas d'accord sur le fait que vous auriez besoin d'un doctorat pour obtenir un emploi "intéressant". Je pense qu'à mesure que la science et la recherche se développent, de plus en plus de statistiques interdisciplinaires ont été imposées à des études de nombreux domaines différents. La moitié des articles sur les revues à fort impact ont une analyse statistique discutable, juste pour répondre aux demandes, même si cela n’a aucun sens, étant donné le contexte / domaine original du problème.
posdef

1
Le livre @cardinal Mood était une excellente suggestion car il est aujourd'hui difficile de trouver un livre d'introduction aux statistiques assez formel pour une personne ayant une formation en mathématiques. Quelqu'un at-il lu ce livre nouveau livre? Panateros, "Statistiques pour mathématiciens" springer.com/us/book/9783319283395
Igor Fobia

11

Je ne peux pas parler pour les écoles les plus rigoureuses, mais je fais un baccalauréat en statistique générale (la plus rigoureuse de mon école) à l'université de Californie à Davis, et je compte beaucoup sur la rigueur et la dérivation. Un doctorat en mathématiques vous sera utile, dans la mesure où vous aurez une solide expérience en analyse réelle et en algèbre linéaire - des compétences utiles en statistiques. Dans mon programme de statistiques, environ 50% des travaux vont soutenir les bases (algèbre linéaire, analyse réelle, calcul, probabilité, estimation), et les 50% restants vont à des sujets spécialisés qui reposent sur les bases (non paramétrique, calcul, ANOVA / Régression, série chronologique, analyse bayésienne).
Une fois que vous avez les bases, passer aux détails n’est généralement pas trop difficile. La plupart des élèves de mes classes ont des difficultés avec les preuves et l'analyse réelle, et comprennent facilement les concepts statistiques. Il est donc indéniable que les antécédents en mathématiques seront utiles. Cela étant dit, les deux textes suivants couvrent assez bien de nombreux sujets traités en statistique. Les deux ont été recommandés dans le lien que vous avez fourni, soit dit en passant, donc je ne dirais pas que votre question et celle que vous avez liée sont nécessairement non corrélées.

Méthodes mathématiques de la statistique , par Harald Cramer

Toutes les statistiques: un cours concis sur l'inférence statistique , par Larry Wasserman


3
+1 toutes les statistiques: ce serait un bon endroit pour commencer.
Simon Byrne

1
le programme UC-Davis a l'air bien et je pense que vous y obtiendrez une excellente éducation. Je ne considérerais pas cela "moins rigoureux" que d'autres endroits. J'ai trouvé le commentaire sur leur page "diplôme BS / MS intégré" intéressant et pertinent au fil: "Il existe une forte demande de statisticiens, mais les connaissances et compétences acquises par les titulaires d'un BS en statistique ne suffisent souvent pas. besoins sur le lieu de travail [gouvernemental ou industriel] "
cardinal

9

La Royal Statistical Society du Royaume-Uni propose le diplôme de deuxième cycle en statistique, qui se situe au niveau d'un bon baccalauréat. Un programme, une liste de lecture et des documents antérieurs sont disponibles sur leur site Web . Je sais que les mathématiciens l'utilisent pour se mettre à niveau dans les statistiques. Passer les examens (officiellement ou dans le confort de votre propre étude) pourrait être un moyen utile de mesurer votre présence.


3
Les examens de diplôme de deuxième cycle sont effectivement des examens de dernière année de premier cycle; à des fins de "staging", des certificats de niveau inférieur peuvent être obtenus en premier. Les examens RSS sont disponibles, si je me souviens bien, dans le monde entier, à l'exception de Hong Kong (qui possède sa propre société de statistique et ses examens). Une alternative est le diplôme de premier cycle en statistique proposé par l’apprentissage à distance par l’Open University au Royaume-Uni, mais qui est à nouveau disponible dans le monde entier. Ce niveau est légèrement inférieur à celui de l’impression RSS pour les diplômés et peut donc être considéré comme une préparation. En tant que cours enseigné, c'est beaucoup plus cher.
Silverfish

5

Je consulterais les sites Web des programmes des écoles de statistiques les plus performantes, noterais les livres qu’ils utilisent dans leurs cours de premier cycle, voir quels étaient ceux qui jouissaient d’une excellente réputation sur Amazon et les commander dans votre bibliothèque publique / universitaire.

Quelques écoles à considérer:

Complétez les textes avec les différents sites vidéo de conférence tels que MIT OCW et videolectures.net.

Caltech n’a pas de diplôme de premier cycle en statistiques, mais vous ne vous tromperez pas en suivant le programme de leurs cours de statistiques de premier cycle.


1
cela semble être un peu une liste étrange. À ma connaissance, Carnegie Mellon est la seule école de cette liste à proposer (officiellement) un diplôme de premier cycle en statistique. Ni Caltech, ni le MIT n'ont même de programmes d'études supérieures en statistiques.
cardinal

@cardinal. pourquoi devez-vous douter de moi? :) J'ai mis des liens vers les cours de statistiques de premier cycle dans ces bonnes institutions. En outre, le mélange et la mise en correspondance des cours des meilleures écoles l'emporteront sur le parcours menant à un diplôme d'une école moins performante.
Neil McGuigan

2
OCW est certainement une très bonne ressource et une excellente initiative. Cela ne fait aucun doute. Quant à votre affirmation selon laquelle mélanger et assortir les "meilleures écoles" est une solution supérieure, je trouve cela très suspect, en particulier pour les études de premier cycle. Tandis qu'un étudiant très motivé est tenu d'obtenir une très bonne éducation de premier cycle dans l'une de ces écoles, une éducation de premier cycle aussi bonne ou meilleure peut être trouvée dans de nombreuses écoles "pires". Les écoles telles que celles que vous citez ont tendance à «gagner» pour les études supérieures, dirais-je.
cardinal

2
En fait, c'était la première chose que j'ai essayée. J'ai essayé ceci avant de poster la question. Trouver une liste de cours n'était pas difficile, mais il était beaucoup plus difficile de trouver quels livres étaient réellement utilisés pour ces cours et quelles parties de ces livres étaient couvertes.
John Robertson

3

J'ai vu Statistical Inference, de Silvey, utilisé par des mathématiciens qui avaient besoin d'une certaine connaissance pratique de la statistique. C'est un petit livre, et devrait de droit être bon marché. En regardant http://www.amazon.com/Statistical-Inference-Monographs-Statistics-Probability/dp/0412138204/ref=sr_1_1?ie=UTF8&s=books&qid=1298750064&sr=1-1 , il semble que ce soit une seconde main bon marché.

C'est vieux et se concentre sur les statistiques classiques. Bien que ce ne soit pas très abstrait, il est destiné à un public raisonnablement mathématique - la plupart des exercices sont issus du diplôme en statistique mathématique de Cambridge (Royaume-Uni), qui est essentiellement une maîtrise.


3

Concernant la mesure de vos connaissances: Vous pouvez participer à certains concours d’exploration et d’analyse de données, tels que 1 , 2 , 3 , 4 , et voir comment vous vous comparez aux autres.

Il y a beaucoup d'indications sur les manuels de statistiques mathématiques dans les réponses. J'aimerais ajouter comme sujets pertinents:

  • la composante recherche sociale empirique, qui comprend la théorie de l'échantillonnage, les normes sociodémographiques et régionales
  • la gestion des données, qui inclut des connaissances sur les bases de données (écriture de requêtes SQL, schémas de base de données courants)
  • communication, comment présenter les résultats de manière à ce que le public reste éveillé (méthodes de visualisation)

Disclaimer: Je ne suis pas un statisticien, ce ne sont que mes 2cents


3

ET Jaynes "Théorie des probabilités: la logique de la science: principes et applications élémentaires, Vol 1", Cambridge University Press, 2003 est quasiment une lecture incontournable pour la partie bayésienne de la statistique, à peu près au bon niveau. Je suis impatient de recevoir des recommandations pour le côté fréquentiste (j'ai beaucoup de monographies, mais très peu de bons textes généraux).


3
Je suggérerais que c'est une lecture incontournable pour quiconque veut être un bon statisticien, Frequentist, Bayesian ou autre.
Probistislogic

10
Je suis en désaccord, le livre de Jaynes est une recommandation terrible dans cette situation: 1) la notation est bâclée et non standard, ce qui rend difficile le renvoi à d'autres sources, 2) il est depuis longtemps épuisé et s'enlève dans des arguments idiots et non pertinents (le PO a demandé le "chemin le plus court") 3) il y a aussi les erreurs (comme le paradoxe de la marginalisation)
Simon Byrne le

1
@Dikran Marsupial, possédez-vous le texte de Schervish sur l'inférence statistique? Je ne savais pas si je devais l'acheter ou non. J'étais donc curieux, car vous semblez vous aligner assez fermement sur l'approche bayésienne.
cardinal

1
Je ne dirais pas que j'étais fortement aligné sur l'approche bayésienne. C'est l'approche que je comprends le mieux, ce qui n'est pas la même chose. Je suis essentiellement un ingénieur dans l'âme et je veux que les deux outils soient maintenus en ordre dans ma boîte à outils! Nous devrions viser une bonne compréhension des avantages et des inconvénients de chaque approche. Je n'ai pas le livre de Shervishes, mais j'ai lu un article sur Bayes qui me semblait assez imparfait (je vais voir si je peux le trouver et poser une question à quelqu'un pour qu'il me l'explique!).
Dikran Marsupial

@Dikran, Votre question (potentielle) semble intéressante. Je suis impatient de poster un post dessus.
cardinal

3

Je viens d'une formation en informatique spécialisée dans l'apprentissage automatique. Cependant, j'ai vraiment commencé à comprendre (et surtout à appliquer) les statistiques après avoir suivi un cours de reconnaissance de modèle à l'aide du livre de Bishop, https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book.

voici quelques diapositives de cours du MIT:
http://www.ai.mit.edu/courses/6.867-f03/lectures.html

Cela vous donnera simplement l’arrière-plan (+ du code matlab) pour utiliser les statistiques pour de vrais problèmes de travail et est certainement plus du côté appliqué.

Pourtant, cela dépend fortement de ce que vous voulez faire de vos connaissances. Pour obtenir une mesure de votre qualité, vous pouvez parcourir les logiciels de cours ouverts de certaines universités pour des cours de statistiques avancées, afin de vérifier si vous connaissez les sujets abordés. Juste mon 5 cent.


1

Je pense que Stanford fournit les meilleures ressources en matière de flexibilité. Ils ont même un cours d’apprentissage automatique en ligne qui vous fournirait une base de connaissances respectable en matière de conception d’algorithmes en R. Recherchez-le sur Google et il vous redirigera vers leur page Lagunita où ils proposent des cours intéressants, la plupart leur être libre. J'ai les livres de Tibshirani, Introduction à l'apprentissage statistique »et« Éléments d'apprentissage statistique »au format PDF. Ces deux ressources constituent d'excellentes ressources.

Étant donné que vous êtes mathématicien, je vous conseillerais néanmoins de ne pas suivre la procédure accélérée, car cela ne vous fournirait pas une base solide qui pourrait vous être très utile à l'avenir si vous commençiez à faire un apprentissage en machine sérieux. Traiter les statistiques comme une branche des mathématiques pour obtenir des informations à partir de données, ce qui nécessite du travail. En dehors de cela, il existe des tonnes de ressources en ligne, Johns Hopkins fournit des informations similaires à celles de Stanford. Bien que l'expérience paie toujours, un titre respectable renforcera toujours cette base. Vous pouvez également penser aux champs spécifiques que vous souhaitez entrer; J'entends par là si vous souhaitez vous lancer dans l'analyse de texte ou appliquer vos compétences en mathématiques et en statistiques à la finance. J'arrive dans cette dernière catégorie, j'ai donc un diplôme en économétrie où nous avons étudié la finance et les statistiques. Une combinaison peut toujours être très bonne.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.