La revue Science a-t-elle approuvé le Garden of Forking Pathes Analyses?


29

L'idée de l'analyse adaptative des données est que vous modifiez votre plan d'analyse des données à mesure que vous en apprenez davantage. Dans le cas de l'analyse exploratoire des données (EDA), c'est généralement une bonne idée (vous recherchez souvent des tendances imprévues dans les données), mais pour une étude de confirmation, cela est largement accepté comme une méthode d'analyse très imparfaite (à moins que tous les étapes sont clairement définies et correctement planifiées à l'avance).

Cela étant dit, l'analyse adaptative des données est généralement le nombre de chercheurs qui effectuent réellement leurs analyses, au grand désarroi des statisticiens. En tant que tel, si l'on pouvait le faire d'une manière statistiquement valable, cela révolutionnerait la pratique statistique.

L' article suivant de Science prétend avoir trouvé une méthode pour le faire (je m'excuse pour le paywall, mais si vous êtes dans une université, vous avez probablement accès): Dwork et al, 2015, The réutilisable holdout: Preserving valid in adaptive data analysis .

Personnellement, j'ai toujours été sceptique sur les articles de statistiques publiés dans Science , et celui-ci n'est pas différent. En fait, après avoir lu l'article deux fois, y compris le matériel supplémentaire, je ne comprends pas (du tout) pourquoi les auteurs affirment que leur méthode empêche le sur-ajustement.

D'après ce que je comprends, ils ont un ensemble de données d'exclusion qu'ils vont réutiliser. Ils semblent prétendre qu'en "fuzzing" la sortie de l'analyse de confirmation sur l'ensemble de données de holdout, le sur-ajustement sera évité (il convient de noter que le fuzzing semble simplement ajouter du bruit si la statistique calculée sur les données d'entraînement est suffisamment éloignée à partir de la statistique calculée sur les données d'exclusion ). Pour autant que je sache, il n'y a pas de raison réelle que cela empêche le sur-ajustement.

Suis-je dans l'erreur sur ce que proposent les auteurs? Y a-t-il un effet subtil que je néglige? Ou la science a-t-elle approuvé la pire pratique statistique à ce jour?


2
Ceux qui n'ont pas accès à Science voudront peut-être consulter ce récent article d'actualité scientifique sur la façon d'accéder à des papiers paywall.
amibe dit Réintégrer Monica

1
S'agit-il peut-être d'une préimpression: arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@Tim: l' article Science cite la préimpression que vous avez publiée. En outre, la section Addition de bruit laplacien semble très similaire, mais pas identique, aux méthodes de l'article publié.
Cliff AB

1
@CliffAB afin qu'ils utilisent éventuellement la confidentialité différentielle pour les rendre différents;)
Tim

4
Ce sujet est en fait un tutoriel à ICML le mois dernier. "Dragage rigoureux des données: théorie et outils d'analyse adaptative des données" par un collègue de Google. icml.cc/2016/?page_id=97
horaceT

Réponses:


7

Il y a un blog publié par les auteurs qui décrit cela à un niveau élevé.

Pour citer au début de cette publication:

Afin de réduire le nombre de variables et de simplifier notre tâche, nous sélectionnons d'abord certaines variables d'apparence prometteuse, par exemple celles qui ont une corrélation positive avec la variable de réponse (pression artérielle systolique). Nous ajustons ensuite un modèle de régression linéaire sur les variables sélectionnées. Pour mesurer la qualité de l'ajustement de notre modèle, nous lançons un test F standard de notre manuel de statistiques préféré et rapportons la valeur p résultante.

Freedman a montré que la valeur de p rapportée est très trompeuse - même si les données étaient complètement aléatoires sans aucune corrélation entre la variable de réponse et les points de données, nous observerions probablement une valeur de p significative! Le biais provient du fait que nous avons sélectionné un sous-ensemble des variables de manière adaptative sur la base des données, mais nous ne tenons jamais compte de ce fait. Il existe un grand nombre de sous-ensembles possibles de variables parmi lesquelles nous avons sélectionné. Le simple fait que nous ayons choisi un test plutôt que l'autre en jetant un œil aux données crée un biais de sélection qui invalide les hypothèses sous-jacentes au test F.

Le paradoxe de Freedman apporte une leçon importante. Les niveaux d'importance des procédures standard ne saisissent pas le grand nombre d'analyses que l'on peut choisir d'effectuer ou d'omettre. Pour cette raison, l'adaptabilité est l'une des principales explications des raisons pour lesquelles les résultats de la recherche sont souvent faux, comme l'ont soutenu Gelman et Loken qui qualifient à juste titre l'adaptivité de «jardin des chemins de la fourche».

Je ne vois pas du tout comment leur technique résout ce problème. Donc, en réponse à votre question, je pense qu'ils ne traitent pas du jardin des chemins de bifurcation, et en ce sens, leur technique va endormir les gens dans un faux sentiment de sécurité. Pas très différent de dire "J'ai utilisé la validation croisée" endormit beaucoup - qui ont utilisé un CV non imbriqué - dans un faux sentiment de sécurité.

Il me semble que la majeure partie de la publication sur le blog indique que leur technique est une meilleure réponse pour empêcher les participants à une compétition de style Kaggle de gravir le gradient de l'ensemble de test. Ce qui est utile, mais ne concerne pas directement les chemins de fourche. On dirait qu'il a la saveur du Wolfram et de la nouvelle science de Google où d'énormes quantités de données prendront le dessus. Ce récit a un bilan mitigé, et je suis toujours sceptique quant à la magie automatisée.


3

Je suis sûr que je simplifie trop cette technique de confidentialité différentielle ici, mais l'idée est logique à un niveau élevé.

Lorsque vous obtenez un algorithme pour cracher de bons résultats (wow, la précision de mon jeu de test s'est vraiment améliorée), vous ne voulez pas sauter à la conclusion tout de suite. Vous souhaitez l'accepter uniquement lorsque l'amélioration est nettement plus importante que l'algorithme précédent. C'est la raison de l'ajout de bruit.

EDIT: Ce blog a de bonnes explications et des codes R pour démontrer l'efficacité de l'additionneur de bruit, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


>τ

1
@CliffAB J'ai le même sentiment persistant pourquoi cela fonctionne mieux qu'un simple seuil. Mais ils ont des preuves!
horaceT

>τ

@CliffAB Pouvez-vous élaborer? où? C'est une possibilité intrigante ....
horaceT

En utilisant les diapositives de votre lien précédent ( icml.cc/2016/?page_id=97 ), sur les diapositives 72 et 73, même lorsque vous utilisez la méthode "Thresholdout", la précision de la rétention est supérieure aux données récentes à chaque simulation, bien que il fait mieux que le «maintien standard» (qui est en réalité un «abus standard du jeu de données de validation», et non une véritable procédure statistique valide). Pour info, l'intrigue apparaît sur les diapositives comme étant la même dans le document scientifique (juste au cas où vous n'y auriez pas accès).
Cliff AB

3

L'affirmation selon laquelle l'ajout de bruit aide à empêcher le sur-ajustement retient vraiment l'eau ici, car ce qu'ils font réellement limite la façon dont le document est réutilisé . Leur méthode fait en fait deux choses: elle limite le nombre de questions qui peuvent être posées au sujet du récalcitrant, et combien de chacune des réponses révèle sur les données du récalcitrant.

kknn/k

n/kk

Le cœur de leur méthode est une relation entre la stabilité algorithmique et le sur-ajustement, qui remonte à la fin des années 1970 (Devroye et Wagner 1978). En gros, ça dit

UNEXq=UNE(X)UNEXPqXqP

UNE()F(UNE())FqUNEUNE

Il y a maintenant pas mal d'articles qui analysent comment différentes procédures d'ajout de bruit contrôlent le sur-ajustement. Un document relativement lisible est celui de Russo et Zou ( https://arxiv.org/abs/1511.05219 ). Certains documents de suivi plus récents sur les travaux initiaux de Dwork et al. pourrait également être utile de regarder. (Avertissement: j'ai deux articles sur le sujet, le plus récent expliquant un lien avec le test d'hypothèse adaptative: https://arxiv.org/abs/1604.03924 .)

J'espère que tout aide.


0

Je m'oppose à votre deuxième phrase. L'idée que son plan complet d'analyse des données doit être déterminé à l'avance n'est pas justifiée, même dans un contexte où vous essayez de confirmer une hypothèse scientifique préexistante. Au contraire, toute analyse de données décente nécessitera une certaine attention aux données réelles qui ont été acquises. Les chercheurs qui croient le contraire sont généralement des chercheurs qui croient que les tests de signification sont le début et la fin de l'analyse des données, avec peu ou pas de rôle pour les statistiques descriptives, les graphiques, l'estimation, la prédiction, la sélection du modèle, etc. Dans ce contexte, l'exigence de fixer ses plans analytiques à l'avance a plus de sens parce que les façons conventionnelles dont p-les valeurs sont calculées nécessitent que la taille de l'échantillon et les tests à effectuer soient décidés avant de voir les données. Cette exigence gêne l'analyste, et est donc l'une des nombreuses bonnes raisons de ne pas utiliser de tests de signification.

Vous pourriez objecter que laisser l'analyste choisir quoi faire après avoir vu les données permet un surajustement. C'est le cas, mais un bon analyste montrera toutes les analyses qu'ils ont effectuées, expliquera explicitement quelles informations contenues dans les données ont été utilisées pour prendre des décisions analytiques et utilisera de manière appropriée des méthodes telles que la validation croisée. Par exemple, il est généralement bien de recoder des variables en fonction de la distribution des valeurs obtenue, mais en choisissant pour une analyse les 3 prédicteurs sur 100 qui ont l'association observée la plus proche de la variable dépendante signifie que les estimations d'association vont être positives biaisé, par le principe de régression à la moyenne. Si vous souhaitez effectuer une sélection de variables dans un contexte prédictif, vous devez sélectionner des variables dans vos plis de validation croisée, ou utiliser uniquement les données d'apprentissage.


2
Je crois qu'une grande partie de ce que vous proposez s'inscrit dans le domaine de l'analyse exploratoire des données (EDA), pour laquelle j'ai approuvé les méthodes d'analyse adaptative des données. Je pense également que l'EDA est sous-estimée et devrait recevoir plus de crédit. Mais tout cela est orthogonal à la question qui se pose, qui est "Ces auteurs nous ont-ils vraiment permis de réutiliser à plusieurs reprises les données de validation pour la sélection de modèles dans une méthode statistique valide?" Votre dernière phrase suggère que vous, comme moi, êtes quelque peu sceptiques à l'égard de telles conclusions.
Cliff AB

Je ne pense pas, par exemple, que l'estimation soit intrinsèquement exploratoire, non. Si vous avez une hypothèse scientifique qui dit que la longueur maximale d'un crocodile doit être de 12 pieds et que vous essayez d'estimer la longueur maximale d'un crocodile pour vérifier cela, vous faites une analyse de confirmation.
Kodiologist

2
+1, malgré trois downvotes existants. Je suis d'accord avec le point principal de cette réponse (votre deuxième phrase), même si je suis parfaitement conscient qu'elle est assez controversée. En général, je pense que la différence entre l'analyse exploratoire et l'analyse de confirmation est surestimée; l'analyse réelle est souvent quelque part entre les deux. Cela dit, je ne pense pas que vous ayez répondu (ou même tenté de répondre) à la question d'OP qui concernait Dwork et al. papier.
amibe dit Réintégrer Monica le

@amoeba "Je ne pense pas que vous ayez répondu (ou même tenté de répondre) à la question d'OP qui concernait le papier de Dwork et al." prémisse de la question.
Kodiologist

2
+1 au commentaire de @ amoeba. Cela aurait été un excellent commentaire à la question, mais ce n'est pas une réponse.
S.Kolassa - Reinstate Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.