Optimisation: la racine de tout mal dans les statistiques?

J'ai déjà entendu l'expression suivante:

"L'optimisation est la racine de tout mal dans les statistiques".

Par exemple, la première réponse dans ce fil fait cette déclaration en référence au danger d'optimiser trop agressivement lors de la sélection du modèle.

Ma première question est la suivante: cette citation est-elle attribuable à quelqu'un en particulier? (par exemple dans la littérature statistique)

D'après ce que je comprends, la déclaration fait référence aux risques de sur-ajustement. La sagesse traditionnelle dirait qu'une validation croisée appropriée lutte déjà contre ce problème, mais il semble qu'il y ait plus à ce problème que cela.

Les statisticiens et les praticiens du ML devraient-ils se méfier de la sur-optimisation de leurs modèles même lorsqu'ils adhèrent à des protocoles de validation croisée stricts (par exemple 100 CV imbriqués 10 fois)? Dans l'affirmative, comment savoir quand arrêter de rechercher «le meilleur» modèle?

cross-validation optimization overfitting

— Amelio Vazquez-Reina
source

Mais la deuxième question est indiscutable, n'est-ce pas?

— russellpierce

@Glen_b J'ai laissé une référence dans ce fil. Mais juste pour clarifier, Dikran a déjà suggéré d'ouvrir les questions de suivi de sa réponse dans des fils séparés, et je doute que cette question doive être abordée dans un commentaire.

— Amelio Vazquez-Reina

@ RussellS.Pierce L'édition qui contenait la question telle qu'elle est actuellement - même si elle a été faite avant mon commentaire - n'était pas là lorsque je l'ai chargée et j'ai commencé à rechercher la question d'origine et les réponses possibles, elle n'avait que ce que je décrirais comme une question rhétorique là-bas. La question telle qu'elle est actuellement est très bien.

— Glen_b -Reinstate Monica

Le problème de la validation croisée est abordé dans une autre question ici: stats.stackexchange.com/questions/29354/… La validation croisée peut aider à éviter le sur-ajustement, mais elle ne résout pas complètement le problème. Savoir quand s'arrêter peut être un problème très délicat, et je ne pense pas qu'il puisse y avoir de solution générale.

— Dikran Marsupial

"Une validation croisée appropriée lutte déjà contre ce problème, mais il semble que ce problème ne se résume pas à cela." Oui: le problème reste la variance des estimations de validation croisée (combinée à une problématique de tests multiples). Si je trouve le temps, j'écrirai une réponse à votre question connexe.

— cbeleites prend en charge Monica

Réponses:

La citation est une paraphrase d'une citation de Donald Knuth , qu'il a lui-même attribuée à Hoare. Trois extraits de la page ci-dessus:

L'optimisation prématurée est la racine de tout mal (ou du moins la plupart) dans la programmation.

L'optimisation prématurée est la racine de tout Mal.

Knuth se réfère à cela comme "Hoare's Dictum" 15 ans plus tard ...

Je ne sais pas si je suis d'accord avec la paraphrase des statistiques *. Il y a beaucoup de «mal» dans les statistiques qui ne sont pas liées à l'optimisation.

Les statisticiens et les praticiens du ML devraient-ils toujours se méfier de la sur-optimisation de leurs modèles même lorsqu'ils adhèrent à des protocoles de validation croisée stricts (par exemple, 100 CV 10 fois imbriqués)? Dans l'affirmative, comment savoir quand arrêter de rechercher «le meilleur» modèle?

Je pense que l'essentiel est de bien comprendre (ou aussi complètement que possible) les propriétés des procédures que vous entreprenez.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b -Reinstate Monica
source

Merci, c'est utile. Je pense qu'il existe des liens intéressants entre l'optimisation prématurée de la programmation et le surajustement. Je me demande s'il existe des citations similaires dans notre communauté et s'il existe un moyen rigoureux de lutter contre cela dans les statistiques.

— Amelio Vazquez-Reina

Mon utilisation de l'expression a été inspirée par celle de Knuth, bien que la raison soit différente et d'un point de vue bayésien, presque toute optimisation est une mauvaise chose et la marginalisation est meilleure.

— Dikran Marsupial

Deux façons d'analyser le devis (en statistiques), en supposant que l'optimisation se réfère à la sélection de modèle (basée sur les données):

Si vous vous souciez de la prédiction, il est préférable de faire la moyenne du modèle au lieu de sélectionner un seul modèle.
Si vous sélectionnez un modèle sur le même ensemble de données utilisé pour ajuster le modèle, cela fera des ravages sur les outils / procédures d'inférence habituels qui supposent que vous avez choisi le modèle a priori . (Supposons que vous effectuez une régression pas à pas, en choisissant la taille du modèle par validation croisée. Pour une analyse Frequentist, les valeurs p ou CI habituelles pour le modèle choisi seront incorrectes. Je suis sûr qu'il existe des problèmes correspondants pour les analyses bayésiennes qui impliquent le modèle sélection.)
Si votre ensemble de données est suffisamment grand par rapport à la famille de modèles que vous envisagez, le sur-ajustement peut même ne pas être un problème et la sélection de modèle peut être inutile. (Supposons que vous allez ajuster une régression linéaire en utilisant un ensemble de données avec peu de variables et de très nombreuses observations. Toutes les variables parasites devraient avoir des coefficients estimés proches de 0 de toute façon, alors peut-être que vous n'avez même pas besoin de vous embêter à sélectionner un modèle plus petit.)
Si votre jeu de données est suffisamment petit, il se peut que vous ne disposiez pas de suffisamment de données pour correspondre au modèle «vrai» ou «meilleur» du problème. Qu'est-ce que cela signifie même de bien faire la sélection des modèles, dans ce cas? (Retour à la régression linéaire: Pourquoi devriez - vous viser à sélectionner le « vrai » modèle avec les variables de droite, même si vous ne disposez pas de suffisamment de données pour les mesurer tous correctement si vous choisissez simplement le plus grand modèle pour lequel vous n'avez assez de données ?)
Enfin, même lorsqu'il est clair que vous pouvez et devez faire une sélection de modèle, la validation croisée n'est pas une panacée. Il a de nombreuses variantes et même son propre paramètre de réglage (nombre de plis, ou rapport train: test) qui a un impact sur ses propriétés. Alors ne lui faites pas confiance aveuglément.

— civilstat
source