(Très) courte histoire
Bref, en un sens, les statistiques sont comme n'importe quel autre domaine technique: il n'y a pas de voie rapide .
Longue histoire
Les programmes de licence en statistiques sont relativement rares aux États-Unis. L'une des raisons pour lesquelles je pense que c'est vrai, c'est qu'il est assez difficile d'intégrer tout ce qui est nécessaire pour bien apprendre les statistiques dans un programme de premier cycle. Cela est particulièrement vrai dans les universités qui ont d'importantes exigences en matière d'enseignement général.
Développer les compétences nécessaires (mathématiques, calcul et intuitives) nécessite beaucoup d'efforts et de temps. Les statistiques peuvent commencer à être comprises à un niveau "opérationnel" assez décent une fois que l'étudiant a maîtrisé le calcul et une quantité décente d'algèbre linéaire et matricielle. Cependant, tout statisticien appliqué sait qu'il est assez facile de se retrouver sur un territoire qui ne se conforme pas à une approche de type «cookie cutter» ou à base de recettes. Pour bien comprendre ce qui se passe sous la surface, il faut au préalablematurité mathématique et, dans le monde actuel, informatique, qui ne sont réellement réalisables que dans les dernières années de la formation de premier cycle. C’est une des raisons pour laquelle la véritable formation statistique débute principalement au niveau des États membres aux États-Unis (l’Inde, avec son ISI dédié, est un peu différent. Un argument similaire pourrait être avancé pour certaines formations basées au Canada. Études statistiques de premier cycle basées en Europe ou en Russie ayant un avis éclairé.)
Presque n'importe quel emploi (intéressant) exigerait une formation de niveau MS et les emplois vraiment intéressants (à mon avis) requièrent essentiellement une formation de niveau doctorat.
Étant donné que vous avez un doctorat en mathématiques, bien que nous ne sachions pas dans quel domaine, voici mes suggestions pour quelque chose de plus proche d’une formation de niveau MS. J'inclus des remarques entre parenthèses pour expliquer les choix.
- D. Huff, Comment mentir avec les statistiques . (Très rapide, lecture facile. Montre beaucoup des idées conceptuelles et des pièges, en particulier, dans la présentation de statistiques au profane.)
- Mood, Graybill, and Boes, Introduction à la théorie de la statistique , 3e éd., 1974. (Introduction à la statistique théorique au niveau MS. Vous en apprendrez plus sur les distributions d'échantillonnage, l'estimation ponctuelle et les tests d'hypothèses dans un cadre fréquentiste classique. l’opinion est qu’elle est généralement meilleure et un peu plus avancée que ses homologues modernes tels que Casella & Berger ou Rice.)
- Seber & Lee, Analyse de régression linéaire , 2e éd. (Présente la théorie de l'estimation ponctuelle et des tests d'hypothèses pour les modèles linéaires, qui est probablement le sujet le plus important à comprendre en statistiques appliquées. Puisque vous possédez probablement un bon fond d'algèbre linéaire, vous devez immédiatement être en mesure de comprendre ce qui se passe géométriquement. Il contient également de bonnes informations sur les problèmes d’évaluation liés à la sélection de modèles, les écarts par rapport aux hypothèses, les prévisions et les versions robustes des modèles linéaires.)
- Hastie, Tibshirani et Friedman, Elements of Statistical Learning , 2e éd., 2009. (Ce livre présente un sentiment beaucoup plus appliqué que le précédent et couvre de nombreux sujets modernes liés à l'apprentissage automatique. La principale contribution consiste ici à fournir des interprétations statistiques. de nombreuses idées d’apprentissage automatique, ce qui est particulièrement rentable pour quantifier l’incertitude dans de tels modèles (ce qui a tendance à ne pas être abordé dans les livres d’apprentissage automatique typiques. Disponible légalement gratuitement ici ).
- A. Agresti, Categorical Data Analysis , 2e éd. (Bonne présentation de la manière de traiter des données discrètes dans un cadre statistique. Bonne théorie et bons exemples pratiques. Peut-être du côté traditionnel à certains égards.)
- Boyd & Vandenberghe, Optimisation convexe . (Un grand nombre des problèmes d’estimation statistique et de test d’hypothèses modernes les plus populaires peuvent être formulés sous forme de problèmes d’optimisation convexe. C’est le cas de nombreuses techniques d’apprentissage automatique, telles que les SVM. Avoir une compréhension plus large et la capacité de reconnaître de tels problèmes comme des programmes convexes est assez précieux, je pense. Disponible légalement gratuitement ici .)
- Efron & Tibshirani, Une introduction au bootstrap . (Vous devez au moins vous familiariser avec le bootstrap et les techniques associées. Pour un manuel, c'est une lecture rapide et facile.)
- J. Liu, Stratégies de Monte Carlo en calcul scientifique ou P. Glasserman, Méthodes de Monte Carlo en ingénierie financière . (Ce dernier semble très orienté vers un domaine d’application particulier, mais je pense qu’il donnera un bon aperçu et des exemples pratiques de toutes les techniques les plus importantes. Les applications d’ingénierie financière ont été à l’origine de nombreuses recherches de Monte Carlo au cours des dix dernières années environ. .)
- E. Tufte, L'affichage visuel d'informations quantitatives . (Une bonne visualisation et présentation des données est [fortement] sous-estimée, même par les statisticiens.)
- J. Tukey, Analyse de données exploratoire . (Standard. Oldie, mais goodie. Certains diront peut-être dépassé, mais ça vaut le coup de regarder.)
Compléments
Voici quelques autres livres, la plupart du temps un peu plus avancés, de nature théorique et / ou auxiliaire, qui sont utiles.
- FA Graybill, théorie et application du modèle linéaire . (Ancienne, terrible composition, mais couvrant tout le même terrain de Seber & Lee, et plus encore. Je dis démodé car des traitements plus modernes auraient probablement tendance à utiliser la SVD pour unifier et simplifier beaucoup de techniques et de preuves.)
- FA Graybill, matrices avec applications en statistiques . (Texte associé à ce qui précède. Une profusion de résultats de bonne algèbre matricielle utiles aux statistiques ici. Excellente référence documentaire.)
- Devroye, Gyorfi et Lugosi, Une théorie probabiliste de la reconnaissance des formes . (Texte rigoureux et théorique sur la quantification de la performance dans les problèmes de classification.)
- Brockwell & Davis, Séries temporelles: théorie et méthodes . (Analyse chronologique classique. Traitement théorique. Pour les textes plus appliqués, les textes de Box, Jenkins & Reinsel ou Ruey Tsay sont corrects.)
- Motwani et Raghavan, Algorithmes Randomisés . (Méthodes probabilistes et analyse pour les algorithmes de calcul.)
- D. Williams, Probabilité et Martingales et / ou R. Durrett, Probabilité: Théorie et exemples . (Au cas où vous auriez vu la théorie de la mesure, disons, au niveau de DL Cohn, mais peut-être pas la théorie des probabilités. Les deux sont utiles pour une mise à niveau rapide si vous connaissez déjà la théorie de la mesure.)
- F. Harrell, Stratégies de modélisation par régression . (Pas aussi bon que Elements of Statistical Learning [ESL], mais a une approche différente et intéressante. Couvre plus de sujets "traditionnels" de statistiques appliquées que l'ALS et mérite donc d'être abordé.)
Textes plus avancés (niveau doctorat)
Lehmann et Casella, théorie de l'estimation ponctuelle . (Traitement au doctorat de l'estimation ponctuelle. Une partie du défi de ce livre consiste à le lire et à comprendre ce qui est une faute de frappe et ce qui ne l'est pas. Quand vous vous verrez les reconnaître rapidement, vous comprendrez que vous comprenez. de ce type, surtout si vous plongez dans les problèmes.)
Lehmann et Romano, Test d'hypothèses statistiques . (Traitement au niveau du doctorat des tests d'hypothèses. Pas autant de fautes de frappe que TPE ci-dessus.)
A. van der Vaart, Statistiques asymptotiques . (Un beau livre sur la théorie asymptotique de la statistique avec de bons conseils sur les domaines d'application. Ce n'est pas un livre appliqué. Mon seul reproche, c'est que des notations assez bizarres sont utilisées et que des détails sont parfois balayés sous le tapis.)