Quelles sont les avancées dans la statistique des 15 dernières années?


56

Je me souviens encore du document Annals of Statistics sur Boosting de Friedman-Hastie-Tibshirani, ainsi que des commentaires d'autres auteurs (dont Freund et Schapire) sur le même sujet. À l’époque, clairement, Boosting était perçu comme une avancée à bien des égards: réalisable sur le plan informatique, méthode d’ensemble, avec une performance à la fois excellente et mystérieuse. À peu près à la même époque, SVM a atteint sa maturité en offrant un cadre reposant sur une théorie solide, avec de nombreuses variantes et applications.

C'était dans les merveilleuses années 90. Au cours des 15 dernières années, il me semble que de nombreuses statistiques ont été une opération de nettoyage et de détail, mais avec peu de points de vue vraiment nouveaux.

Je vais donc poser deux questions:

  1. Ai-je manqué un papier révolutionnaire / séminal?
  2. Sinon, y a-t-il de nouvelles approches qui, selon vous, pourraient potentiellement changer le point de vue de l'inférence statistique?

Règles:

  1. Une réponse par poste;
  2. Références ou liens bienvenus.

PS: J'ai quelques candidats pour des percées prometteuses. Je les posterai plus tard.


5
Voir stats.stackexchange.com/q/1883/159 pour une question similaire (fermée à titre subjectif et argumentatif).
Rob Hyndman le

1
J'étais sur le point de faire apparaître le même fil. Ça sent le double.
Dirk Eddelbuettel le

1
C'est subjectif, bien sûr, mais n'est-ce pas encore acceptable pour CW?
Christopher Aden

1
C'était sur une plus longue échelle de temps. Je ne pense pas que ce soit un doublon. Quant à l'argumentation, c'est aux participants de décider. Je n'essaie pas de décerner un trophée ici, mais simplement pour me tenir au courant des documents phares que d'autres et moi-même avons peut-être ratés. Puisqu'il n'y a pas de bonne réponse, je suis tout pour une CW. Je trouve intéressant que jusqu'ici toutes les réponses concernent les innovations bayésiennes.
Gappy

2
Cela semble être un poste qui peut être protégé. Je pense que cela peut rester ouvert.
gung - Rétablir Monica

Réponses:


43

La réponse est si simple que je dois écrire tout ce charabia pour faire un CV, laissez-moi le poster: R


14

Je ne sais pas si vous appelleriez cela une "percée" en soi, mais l'édition de la théorie des probabilités: la logique de la science par Edwin Jaynes et Larry Bretthorst peut être remarquable. Certaines des choses qu'ils font ici sont:

1) montrer l’équivalence entre certains schémas itératifs de "désaisonnalisation" et l’intégration bayésienne de "paramètre de nuisance".

2) a résolu le soi-disant "paradoxe de la marginalisation", considéré comme la "mort du bayésianisme" par certains, et la "mort de prieurs injustes" par d'autres.

3) l’idée que la probabilité décrit un état de connaissance selon lequel une proposition est vraie ou fausse, par opposition à la description d’une propriété physique du monde .

Les trois premiers chapitres de ce livre sont disponibles gratuitement ici .


2
Malheureusement, la résolution de Jaynes sur le paradoxe de la marginalisation était déficiente. Voir les notes de Kevin Van Horn sur le traitement du paradoxe de la marginalisation par Jaynes , disponibles ici .
Cyan

1
@cyan - Notez que bien que sa résolution ait été viciée dans certains domaines, ses principes sous-jacents l'ont résolue. La règle générale des vrais prieurs et de leurs limites convergentes signifie que le député ne peut pas survenir. La faille est probablement due au fait que le livre est inachevé au cours de la majeure partie de la deuxième partie. J'aime la résolution [ici] ( arxiv.org/abs/math/0310006 ) meilleure que la version ksvh. plus court et plus général.
probabilitéislogic

14

En tant que statisticien appliqué et auteur de logiciel mineur occasionnel, je dirais:

WinBUGS (sorti en 1997)

Il est basé sur BUGS, publié il y a plus de 15 ans (1989), mais WinBUGS a rendu l'analyse bayésienne de modèles réalistes et complexes accessible à un nombre beaucoup plus grand d'utilisateurs. Voir, par exemple, Lunn, Spiegelhalter, Thomas et Best (2009) (et la discussion à ce sujet dans Statistics in Medicine, vol. 28, numéro 25 ).


2
Comment cela change-t-il maintenant Stan?
Ari B. Friedman

13

kii


Avez-vous déjà utilisé LARS? Je demande parce que je n'en ai jamais entendu parler plus tôt et que cela semble vraiment intéressant. L'article original est un peu long (93 pages), j'aimerais donc avoir votre avis avant de m'y plonger.
Tomek Tarczynski le

@Tomek Tarczynski: Je l'ai utilisé une petite quantité. Il y a un paquet dans Matlab (j'en suis sûr, il y en a un ou plusieurs dans R), que j'ai utilisé. Il fournit également un PCA clairsemé, qui m'intéressait davantage. J'avoue que je n'ai parcouru que le papier. ;)
shabbychef

11

L’introduction de la fonction de perte "divergence intrinsèque" et d’autres fonctions de perte "sans paramétrage" dans la théorie de la décision. Il a beaucoup d'autres "belles" propriétés, mais je pense que le meilleur est le suivant:

θθeθg(θ)g(θe)

Je pense que c'est très cool! (par exemple, la meilleure estimation du log-odds est le log (p / (1-p)), la meilleure estimation de la variance est le carré de l'écart type, etc.)

La prise? la différence intrinsèque peut être assez difficile à résoudre! (cela implique min () funcion, un rapport de vraisemblance et des intégrales!)

La "contre-prise"? vous pouvez "réorganiser" le problème afin qu'il soit plus facile à calculer!

La "contre-contre-capture"? trouver comment "réorganiser" le problème peut être difficile!

Voici quelques références que je connais et qui utilisent cette fonction de perte. Bien que j'aime beaucoup les parties "estimation intrinsèque" de ces documents / diapositives, j'ai quelques réserves quant à l'approche "référence préalable" qui est également décrite.

Test d'hypothèses bayésiennes: une approche de référence

Estimation Intrinsèque

Comparaison des moyennes normales: nouvelles méthodes pour résoudre un problème ancien

Estimation objective bayésienne et test d'hypothèses intégrés



9

En ajoutant mes 5 centimes, je pense que la plus importante avancée de ces 15 dernières années a été la détection comprimée. LARS, LASSO et une foule d'autres algorithmes relèvent de ce domaine, dans la mesure où Compressed Sensing explique pourquoi ils fonctionnent et les étend à d'autres domaines.


1
J'ai examiné Compressed Sensing et, en tant que non-statisticien, je me suis toujours demandé: "N'est-ce pas une projection aléatoire inverse?". Je sais que «juste» est un mot facile à utiliser, mais il semble que les gens laissent de côté ce qui semble être un lien évident entre la projection aléatoire (environ 2000) et la détection comprimée (environ 2004).
Wayne

9

Quelque chose qui a très peu à voir avec les statistiques elles-mêmes, mais qui a été extrêmement bénéfique: la puissance de feu croissante des ordinateurs, rendant de plus grands ensembles de données et des analyses statistiques plus complexes plus accessibles, en particulier dans les domaines appliqués.


8

L'algorithme espérance-propagation pour l'inférence bayésienne, en particulier dans la classification du processus gaussien, a sans doute été une avancée significative, car il fournit une méthode d'approximation analytique efficace qui fonctionne presque aussi bien que des approches basées sur un échantillonnage coûteux (contrairement à l'approximation habituelle de Laplace). Voir les travaux de Thomas Minka et d'autres sur la feuille de route du PE


EP semble cool (même si cela me fait encore mal à la tête). Manque-t-il toujours des garanties de convergence générales?
conjugateprior



2

Un peu plus général que les statistiques, je pense qu’il ya eu des progrès importants dans les méthodes de recherche sur la reproductibilité (RR) . Par exemple, le développement de R knittretSweaveles packages et les carnets de notes "R Markdown", les améliorations apportées à LyX et à LaTeX ont largement contribué au partage des données, à la collaboration, à la vérification / validation et même à des avancées statistiques supplémentaires. Les articles de fond publiés dans des revues statistiques, médicales et épidémiologiques permettaient rarement à quelqu'un de reproduire facilement les résultats avant l'émergence de ces méthodes / technologies de recherche reproductibles. Aujourd'hui, plusieurs revues exigent des recherches reproductibles et de nombreux statisticiens utilisent RR et le code de publication, leurs résultats et leurs sources de données sur le Web. Cela a également contribué à promouvoir les disciplines de la science des données et à rendre l'apprentissage statistique plus accessible.


1

À mon avis, article publié en 2011 dans le magazine Science. Les auteurs proposent une mesure très intéressante d’association entre une paire de variables aléatoires qui fonctionne bien dans de nombreuses situations où des mesures similaires échouent (Pearson, Spearman, Kendall). Très beau papier. C'est ici.


Le lien semble être brisé.
dsaxton

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.