La sélection de variables pour la modélisation prédictive est-elle vraiment nécessaire en 2016?


68

Cette question a été posée sur CV il y a quelques années. Cela semble mériter d'être republié compte tenu des technologies informatiques les plus performantes (par exemple, calcul parallèle, calcul haute performance, etc.) et de nouvelles techniques, par exemple [3].

Tout d'abord, un peu de contexte. Supposons que l'objectif ne soit pas de tester des hypothèses, ni d'estimer des effets, mais de prédire des tests invisibles. Ainsi, aucun avantage n'est attribué à un avantage interprétable. Deuxièmement, supposons que vous ne pouvez pas exclure la pertinence d'un prédicteur sur un sujet, c'est-à-dire. ils semblent tous plausibles individuellement ou en combinaison avec d’autres prédicteurs. Troisièmement, vous êtes confronté à des (centaines de) millions de prédicteurs. Quatrièmement, supposons que vous ayez accès à AWS avec un budget illimité. La puissance de calcul n'est donc pas une contrainte.

Les réactions habituelles pour la sélection des variables sont 1) l’efficacité; plus rapide pour s'adapter à un modèle plus petit et moins cher pour collecter moins de prédicteurs, 2) interprétation; connaître les variables "importantes" donne un aperçu du processus sous-jacent [1].

Il est maintenant notoire que de nombreuses méthodes de sélection de variables sont inefficaces et souvent carrément dangereuses (par exemple, une régression progressive) [2].

Deuxièmement, si le modèle sélectionné est bon, il ne devrait pas du tout être nécessaire de réduire la liste des prédicteurs. Le modèle devrait le faire pour vous. Un bon exemple est le lasso, qui attribue un coefficient nul à toutes les variables non pertinentes.

Je suis conscient que certaines personnes préconisent l'utilisation d'un modèle "d'éléphant", à savoir. jeter tous les prédicteurs imaginables dans l'ajustement et courir avec elle [2].

Existe-t-il une raison fondamentale de choisir des variables si l'objectif est l'exactitude prédictive?

[1] Reunanen, J. (2003). Overfitting en faisant des comparaisons entre les méthodes de sélection de variable. Le journal de la recherche en apprentissage machine, 3, 1371-1382.

[2] Harrell, F. (2015). Stratégies de modélisation par régression: avec applications aux modèles linéaires, régression logistique et ordinale et analyse de survie. Springer.

[3] Taylor, J. et Tibshirani, RJ (2015). Apprentissage statistique et inférence sélective. Actes de l'Académie nationale des sciences, 112 (25), 7629-7634.

[4] Zhou, J., D. Foster, Stine, R. et Ungar, L. (2005, août). Sélection de fonctionnalités de streaming utilisant alpha-investment. Dans Actes de la onzième conférence internationale ACM SIGKDD sur la découverte de connaissances dans l'exploration de données (pp. 384-393). ACM.


6
Belle première question - elle pourrait peut-être être fermée en double, mais j'apprécie que vous ayez déployé des efforts pour définir ce qui la distingue. Je suggérerais de modifier le titre, il est donc plus clair que vous vous concentrez uniquement sur la prédiction.
Silverfish

5
Si cette question a déjà été posée mais que vous trouvez important de la republier après un certain temps, vous pourriez peut-être fournir un lien vers la question précédente? Il pourrait être intéressant de pouvoir comparer les réponses précédentes.
Tim

1
@ qbert65536 Un point de vue, c'est que vous ne le faites pas. La sélection des fonctionnalités est intrinsèquement peu fiable.
HoraceT

8
Les méthodes qui sélectionnent automatiquement un sous-ensemble fragmenté de fonctionnalités (par exemple, l1 modèles pénalisés) effectuent également la sélection de fonctionnalités. La question critique n'est donc pas "la sélection des fonctionnalités est-elle bonne / mauvaise", mais "quelles sont les propriétés qui distinguent les bonnes méthodes de sélection des fonctionnalités des mauvaises?". Etre effectué conjointement avec une estimation de paramètre (comme en lasso) est une propriété, et nous pourrions nous demander si cela compte (avec beaucoup d'autres propriétés).
user20160

2
@ToussaintLouverture Depuis que j'ai posté cette question il y a un an, j'ai une deuxième (et troisième) pensée. Maintenant, je pense que la question qui convient est de savoir à quel point il est important d'orienter les efforts vers la sélection de variables plutôt que de modéliser la sélection afin de choisir un modèle plus performant généralisant toutes les caractéristiques d'une expérience.
HoraceT

Réponses:


37

Il y a des rumeurs depuis des années que Google utilise toutes les fonctionnalités disponibles pour construire ses algorithmes prédictifs. Cependant, à ce jour, aucune clause de non-responsabilité, explication ou livre blanc ne permet de clarifier et / ou de contester cette rumeur. Même leurs brevets publiés ne facilitent pas la compréhension. Par conséquent, personne à l'extérieur de Google ne sait ce qu'il fait, à ma connaissance.

/ * Mis à jour en septembre 2019, un évangéliste de Google Tensorflow a déclaré lors d'une présentation que les ingénieurs de Google évaluent régulièrement plus de 5 milliards de paramètres pour la version actuelle de PageRank . * /

Comme le note le PO, l'un des plus gros problèmes de la modélisation prédictive est la confusion entre le test d'hypothèse classique et la spécification minutieuse du modèle par rapport à l'exploration de données pure. Les personnes formées de manière classique peuvent devenir assez dogmatiques sur le besoin de "rigueur" dans la conception et le développement de modèles. Le fait est que, lorsqu'il est confronté à un grand nombre de prédicteurs candidats et à de multiples cibles possibles ou variables dépendantes, le cadre classique ne fonctionne pas, ne tient pas ou ne fournit pas de conseils utiles. De nombreux articles récents décrivent ce dilemme de Chattopadhyay et le brillant article de Lipson Data Smashing: Un ordre caché dissimulé dans les données http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Le principal goulot d'étranglement est que la plupart des algorithmes de comparaison de données s'appuient aujourd'hui sur un expert humain pour spécifier les «caractéristiques» des données pertinentes pour la comparaison. Nous proposons ici un nouveau principe pour estimer la similarité entre les sources de flux de données arbitraires, n’utilisant ni connaissance de domaine ni apprentissage.

Au document de l'ARE de l'année dernière sur les problèmes de politique de prévision de Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 qui plaide en faveur de l'extraction et de la prédiction de données en tant qu'outils utiles dans l'élaboration des politiques économiques, citant des cas où "l'inférence causale n'est pas centrale, ni même nécessaire. "

Le fait est que la question la plus importante, 64 000 dollars, est le changement de mentalité et les défis du cadre classique de test d'hypothèses implicite dans, par exemple, ce symposium Edge.org sur la pensée scientifique "obsolète" https://www.edge.org/ réponses / ce-que-scientifique-idée-est-prêt-à-la-retraite ainsi que ce récent article de Eric Beinhocker sur la "nouvelle économie" qui présente des propositions radicales pour l'intégration de disciplines très différentes telles que l'économie comportementale, la théorie de la complexité, le modèle prédictif la théorie du développement, des réseaux et des portefeuilles en tant que plate-forme pour la mise en œuvre et l'adoption de politiques https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Il va sans dire que ces questions vont bien au-delà des préoccupations économiques et suggèrent que nous sommes en train de changer radicalement les paradigmes scientifiques. Les points de vue changeants sont aussi fondamentaux que les distinctions entre réductionnisme, principe de plénitude d'Epicurus ou principe explicatif de plénitude d'Epicurus ou explications multiples qui stipulent grossièrement que si plusieurs résultats expliquent quelque chose, conservez-les tous ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Bien sûr, des types comme Beinhocker ne sont absolument pas gênés par des préoccupations pratiques concernant les solutions statistiques appliquées à ce paradigme en évolution. En ce qui concerne la sélection de variables de dimensions ultra-élevées, le PO est relativement peu spécifique en ce qui concerne les approches viables de construction de modèles qui pourraient exploiter, par exemple, Lasso, LAR, des algorithmes pas à pas ou des "modèles d'éléphant" qui utilisent toutes les informations disponibles. La réalité est que, même avec AWS ou un superordinateur, vous ne pouvez pas utiliser toutes les informations disponibles en même temps - il n’ya tout simplement pas assez de RAM pour tout charger. Qu'est-ce que cela signifie? Des solutions de contournement ont été proposées, par exemple, la découverte par la NSF dans des ensembles de données complexes ou volumineux: thèmes statistiques communspour «diviser pour régner» des algorithmes d'exploration de données massive, par exemple, article de Wang et al, A Survey of Statistical Method and Computing for Big Data ( http://www.arxiv.org/pdf/1502.07989.pdf) , ainsi que Leskovec, et al. livre Exploitation d'ensembles de données volumineux http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Dasas

Il existe maintenant littéralement des centaines, voire des milliers d'articles traitant de divers aspects de ces défis, proposant tous des moteurs analytiques très différents comme noyau des algorithmes «diviser pour conquérir»; modèles "d’apprentissage en profondeur" non supervisés; théorie des matrices aléatoires appliquée à la construction de covariances massives; Modèles de tenseurs bayésiens à la régression logistique classique, supervisée, et plus encore. Il y a une quinzaine d'années, le débat portait en grande partie sur des questions relatives aux avantages relatifs des solutions bayésiennes hiérarchiques par rapport aux modèles de mélanges finis fréquentistes. Dans un article traitant de ces questions, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfest parvenu à la conclusion que les différentes approches théoriques produisaient dans la pratique des résultats largement équivalents, à l’exception des problèmes impliquant des données rares et / ou de grande dimension pour lesquelles les modèles HB avaient l’avantage. Aujourd'hui, avec l'avènement des solutions de contournement de D & C, tous les modèles d'arbitrage HB qui ont pu être appréciés par le passé ont été éliminés.

La logique de base de ces solutions de contournement D & C sont, dans l’ensemble, des extensions de la célèbre technique de forêt aléatoire de Breiman qui reposait sur un rééchantillonnage par démarrage des observations et des caractéristiques. Breiman a fait son travail à la fin des années 90 sur un seul processeur alors que des données volumineuses impliquaient quelques dizaines de concerts et quelques milliers de fonctionnalités. Sur les plates-formes multi-coeurs massivement parallèles d'aujourd'hui, il est possible d'exécuter des algorithmes analysant des téraoctets de données contenant des dizaines de millions de fonctionnalités, créant ainsi des millions de mini-modèles "RF" en quelques heures.

Toutes sortes de questions importantes se posent. L’une concerne la perte de précision due à la nature approximative de ces solutions de contournement. Chen et Xie ont abordé cette question dans leur document intitulé Une approche divisée pour l'analyse de données extrêmement volumineuses http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012/2012.1.pdf où ils concluent que les approximations sont indistinctement différentes des modèles "d’information complète".

Une deuxième préoccupation qui, à ma connaissance, n’a pas été suffisamment abordée dans la littérature, concerne les résultats obtenus (c.-à-d. Les "paramètres") de millions de mini-modèles prédictifs potentiellement une fois les solutions palliatives. ont été rassemblés et résumés. En d'autres termes, comment exécuter quelque chose d'aussi simple que de "scorer" de nouvelles données avec ces résultats? Les coefficients du mini-modèle doivent-ils être sauvegardés et stockés ou faut-il simplement réexécuter l'algorithme d & c sur de nouvelles données?

Dans son livre, Numbers Rule Your World , Kaiser Fung décrit le dilemme auquel Netflix est confronté lorsqu'il est présenté avec un ensemble de seulement 104 modèles remis par les gagnants de leur concours. Les gagnants avaient en effet minimisé le MSE par rapport à tous les autres concurrents, mais cela ne se traduisait que par une amélioration de la précision de plusieurs décimales sur l'échelle de notation à 5 points de type Likert utilisée par leur système de recommandation de film. En outre, la maintenance informatique requise pour cet ensemble de modèles coûte beaucoup plus cher que les économies réalisées grâce à "l'amélioration" de la précision des modèles.

Il y a ensuite toute la question de savoir si "l'optimisation" est même possible avec des informations de cette ampleur. Par exemple, le physicien et ingénieur financier Emmanuel Derman, dans son livre My Life as a Quant, suggère que l'optimisation est un mythe insoutenable, du moins en ingénierie financière.

Enfin, des questions importantes concernant l’importance relative des caractéristiques avec un grand nombre de caractéristiques doivent encore être abordées.

Il n’ya pas de réponse facile aux questions concernant le besoin de sélection de variables et les nouveaux défis posés par les solutions de contournement actuelles et épicuriennes qui restent à résoudre. L'essentiel est que nous sommes tous des scientifiques de données maintenant.

**** EDIT *** Références

  1. Chattopadhyay I, Lipson H. 2014 Broyage des données: découverte de l'ordre caché dans les données. JR Soc. Interface 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Ludwig, Sendhil Mullainathan et Ziad Obermeyer. 2015. "Problèmes de politique de prévision." American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, Question annuelle 2014: QUELLE IDÉE SCIENTIFIQUE PRÊTE À LA RETRAITE? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, En quoi les profonds changements économiques rendent les débats de gauche à droite sans pertinence, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Principe Epicure d'explications multiples: conservez tous les modèles. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Découverte dans des ensembles de données complexes ou volumineux: Thèmes statistiques communs, Un atelier financé par la National Science Foundation, 16-17 octobre 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Méthodes statistiques et calcul du big data, document de travail de Chun Wang, Chen Ming-Hui, Elizabeth Schifano, Jing Wu et Jun Yan, 29 octobre 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press; 2 édition (29 décembre 2014) ISBN: 978-1107077232

  9. Matrices de covariance pour grands échantillons et analyse de données de grande dimension (série de Cambridge en mathématiques statistiques et probabilistes), par Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 édition (30 mars 2015) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE et IMRAN S. CURRIM, Une comparaison empirique de modèles de choix logit avec des représentations discrètes ou continues de l'hétérogénéité, Journal of Marketing Research, 479 Vol. XXXIX (novembre 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Une approche dédoublée pour l'analyse de données extraordinairement volumineuses, Xueying Chen et Minge Xie, Rapport technique DIMACS 2012-01, janvier 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012/20121.pdf

  12. Kaiser Fung, Les nombres dominent votre monde: L'influence cachée des probabilités et des statistiques sur tout ce que vous faites, McGraw-Hill Education; 1 édition (15 février 2010) ISBN: 978-0071626538

  13. Emmanuel Derman, Ma vie en tant que quantité: réflexions sur la physique et la finance, Wiley; 1 édition (11 janvier 2016) ISBN: 978-0470192733

* Mise à jour en novembre 2017 *

Le livre de Nathan Kutz de 2013, Modélisation pilotée par les données et calcul scientifique: Méthodes pour les systèmes complexes et les données volumineuses, est une excursion mathématique et axée sur les EDP sur la sélection de variables ainsi que sur des méthodes et des outils de réduction de dimensions. Vous trouverez une excellente introduction d'une heure à sa réflexion dans cette vidéo de juin 2017 sur Youtube, Découverte pilotée par les données de systèmes dynamiques et d'EDP . Il y fait référence aux derniers développements dans ce domaine. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
Il y a quelques années, au Computer Learning School School de Machine Learning, un collègue de Google a donné une conférence (nom oublié). Il a mentionné que quelques modèles (de classification binaire) en production impliquent environ 200 millions de fonctionnalités formées par lots sur environ 30 To de jeux de données; la plupart d'entre eux sont probablement des fonctionnalités binaires. Je ne me souviens pas qu'il ait jamais mentionné la sélection variable.
HoraceT

1
Excellents commentaires (même si une partie est parti sur une tangente). J'aime particulièrement le point de vue selon lequel de nombreuses idées démodées doivent être réexaminées à l'ère du Big Data.
HoraceT

1
@horaceT Très intéressant. Au moins, cela confirme la rumeur. Merci. De quel programme de ML s'agissait-il?
Mike Hunter

1
MLSS 2012 à l'UC Santa Cruz. L'orateur était Tushar Chandra, voici les diapositives, utilisateurs.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b Merci pour les commentaires. Je pensais avoir fourni des noms et des titres pour les références précisément à cause du problème de lien brisé. Quoi qu'il en soit, je vais ajouter une section de référence à la fin. Faites-moi savoir s'il manque quelque chose.
Mike Hunter

14

En termes de prédiction, vous devrez probablement réfléchir à la rapidité avec laquelle le modèle apprend les caractéristiques importantes. Même en pensant à OLS, cela vous donnera quelque chose comme une sélection de modèle avec suffisamment de données. Mais nous savons que cette solution ne converge pas assez rapidement vers cette solution. Nous cherchons donc quelque chose de mieux.

La plupart des méthodes supposent le type de bêta / coefficients qui vont être rencontrés (comme une distribution antérieure dans un modèle bayésien). Ils fonctionnent mieux lorsque ces hypothèses sont valables. Par exemple, la régression crête / lasso suppose que la plupart des bêta sont sur la même échelle, le plus près de zéro. Elles ne fonctionneront pas aussi bien pour les régressions "d'aiguilles dans une botte de foin" où la plupart des bêta sont nulles et certaines sont très grandes (c'est-à-dire que les échelles sont très différentes). La sélection des fonctionnalités peut mieux fonctionner ici - le lasso peut rester coincé entre le bruit qui diminue et le signal laissé intact. La sélection des fonctionnalités est plus variable - un effet est soit "signal", soit "bruit".

En termes de décision, vous devez avoir une idée du type de variables prédictives que vous avez. Avez-vous quelques très bons? Ou toutes les variables sont faibles? Cela conduira le profil de bétas que vous aurez. Et quelles méthodes de pénalité / de sélection utilisez-vous (chevaux pour les parcours et tout ça).

La sélection des caractéristiques n’est pas mauvaise non plus, mais certaines des approximations les plus anciennes en raison de restrictions informatiques ne sont plus valables (étape par étape, avant). La moyenne des modèles à l'aide de la sélection des caractéristiques (tous les modèles 1 var, 2 modèles var, etc. pondérés par leurs performances) fera un très bon travail de prédiction. Mais ils pénalisent essentiellement les bêtas en raison du poids accordé aux modèles avec cette variable exclue - mais pas directement - et non pas sous forme de problème d'optimisation convexe.


12

Je vous donne la perspective de l'industrie.

Les industries n'aiment pas dépenser de l'argent sur des capteurs et des systèmes de surveillance dont elles ne savent pas combien elles vont bénéficier.

Par exemple, je ne veux pas nommer, alors imaginez un composant avec 10 capteurs collectant des données toutes les minutes. Le propriétaire de l'actif se tourne vers moi et me demande dans quelle mesure pouvez-vous prédire le comportement de mon composant avec ces données provenant de 10 capteurs? Ensuite, ils effectuent une analyse coûts-avantages.

Ensuite, ils ont le même composant avec 20 capteurs, ils me demandent, encore une fois, comment pouvez-vous prédire le comportement de mon composant avec ces données de 20 capteurs? Ils effectuent une autre analyse coûts-avantages.

Dans chacun de ces cas, ils comparent les avantages et les coûts d'investissement liés aux installations de capteurs. (Il ne s'agit pas simplement d'ajouter un capteur à 10 $ à un composant. De nombreux facteurs jouent un rôle). Voici où une analyse de sélection de variable peut être utile.


1
Bon point. Mais vous ne sauriez pas que 10 capteurs sont assez bons ou vous en aurez besoin de 10 autres jusqu'à ce que vous
obteniez des

C'est vrai, et vous pouvez toujours spéculer sur la base de certaines études. Vous installez chaque capteur avec un objectif, pour éviter les pannes. Si les taux de défaillance sont faibles ou si vous avez déjà couvert les parties significatives d’un composant, vous savez que l’ajout d’un capteur ne rapportera pas beaucoup. Vous n'avez donc pas besoin d'installer ces capteurs, de collecter des données et de réaliser une étude pour savoir si ces capteurs supplémentaires sont suffisamment performants.
PeyM87

«Capteurs» ne signifie pas nécessairement capteurs. Dans mon entreprise, nous abonnons toutes nos données. Il existe donc une opportunité de découvrir des fonctionnalités qui ne contribuent à rien et de réduire les coûts en les supprimant du service d'abonnement (pour être clair, les taux d'abonnement sont calculés à un niveau supérieur à celui des colonnes individuelles, mais il est certainement plausible d'imaginer un élément de l'abonnement contribuant de manière unique à un modèle final et pouvant être interrompu s'il n'améliore pas les performances)
Robert de Graaf

9

Dans le cadre d’un algorithme d’apprentissage d’un modèle purement prédictif, la sélection de variables n’est pas nécessairement mauvaise du point de vue des performances ni automatiquement dangereuse. Cependant, il y a des problèmes dont il faut être conscient.

Pour la question un peu plus concret, considérons le problème de régression linéaire avec pour et et étant vecteurs de dimension de variables et paramètres, respectivement. L'objectif est de trouver une bonne approximation de la fonction qui est la prédiction de étant donné . Ceci peut être réalisé en estimanti = 1 , ... , N X i ß p x E ( Y | X = x ) = X T β , Y X = x ß

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβutilisant des combinaisons de sélection variable et de minimisation d'une fonction de perte avec ou sans pénalisation. On peut aussi utiliser des méthodes de calcul de moyennes sur modèle ou bayésiennes, mais concentrons-nous sur les prédictions d'un seul modèle.

Les algorithmes de sélection par étapes , tels que la sélection de variables en avant et en arrière, peuvent être considérés comme une tentative approximative de résoudre un meilleur problème de sélection de sous-ensembles, ce qui est difficile en calcul (si difficile que les améliorations de la puissance de calcul importent peu). L'intérêt est de trouver pour chaque le meilleur (ou au moins un bon) modèle avec variables. Ensuite, nous pouvons optimiser plus de .k=1,,min(N,p)kk

Le danger d'une telle procédure de sélection de variables est que de nombreux résultats de distribution standard ne sont pas valides de manière conditionnelle sur la sélection de variable. Ceci est valable pour les tests standard et les intervalles de confiance. C'est l'un des problèmes sur lequel Harrell [2] met en garde. Breiman a également mis en garde contre le choix du modèle basé sur par exemple Mallows de dans The Little Bootstrap ... . Le de , ou l'AIC d'ailleurs, ne prend pas en compte la sélection du modèle et produira des erreurs de prédiction trop optimistes.CpCp

Cependant, la validation croisée peut être utilisée pour estimer l'erreur de prédiction et pour sélectionner , tandis que la sélection de variables permet d'obtenir un bon équilibre entre biais et variance. Ceci est particulièrement vrai si a quelques grandes coordonnées avec le reste proche de zéro comme le mentionne @probabilityislogic.kβ

Les méthodes de retrait telles que la régression de crête et le lasso peuvent permettre de faire un bon compromis entre biais et variance sans sélection de variable explicite. Cependant, comme le mentionne l'OP, le lasso effectue une sélection de variables implicite. Ce n'est pas vraiment le modèle mais plutôt la méthode d'ajustement du modèle qui effectue une sélection variable. Dans cette perspective, la sélection de variables (implicite ou explicite) fait simplement partie de la méthode d’ajustement du modèle aux données et doit être considérée comme telle.

Les algorithmes de calcul de l'estimateur de lasso peuvent tirer parti d'une sélection de variables (ou d'un filtrage). Dans Apprentissage statistique avec parcimonie: le lasso et les généralisations , section 5.10, il décrit l' glmnetutilité du filtrage, tel qu'il est mis en œuvre dans . Cela peut conduire à un calcul beaucoup plus rapide de l'estimateur de lasso.

Une expérience personnelle est tirée d'un exemple où la sélection de variables a permis d'adapter un modèle plus compliqué (un modèle additif généralisé) à l'aide des variables sélectionnées. Les résultats de la validation croisée ont indiqué que ce modèle était supérieur à un certain nombre d'alternatives mais pas à une forêt aléatoire. Si gamsel avait existé qui intègre des modèles additifs généralisés avec une sélection variable j'aurais peut-être envisagé de l'essayer également.

Edit: Depuis que j'ai écrit cette réponse, il y a un papier sur l'application particulière que j'avais à l'esprit. Le code R permettant de reproduire les résultats dans le document est disponible.

En résumé , je dirais que la sélection variable (sous une forme ou l'autre) est et restera utile même à des fins purement prédictives comme un moyen de contrôler le compromis biais-variance. Sinon pour d'autres raisons, du moins parce que des modèles plus complexes risquent de ne pas pouvoir gérer un très grand nombre de variables prédéfinies. Cependant, avec le temps, nous verrons naturellement des développements tels que gamsel qui intègrent la sélection de variables dans la méthodologie d’estimation.

Bien entendu, il est toujours essentiel de considérer la sélection de variables comme faisant partie de la méthode d’estimation. Le danger est de croire que la sélection de variables fonctionne comme un oracle et identifie le bon ensemble de variables. Si nous le croyons et procédons comme si les variables n'étaient pas sélectionnées sur la base des données, nous risquons de commettre des erreurs.


1
Je ne vois pas comment la sélection variable a permis d'adapter un modèle plus compliqué. Avec la sélection variable, vous estimez toujours le même grand nombre de paramètres; vous estimez simplement que certaines d'entre elles sont nulles. La stabilité d'un modèle conditionnel ajusté après la sélection de variables peut être un mirage.
Frank Harrell

1
@Harrell, dans l'exemple particulier, la sélection des variables a été effectuée à l'aide d'un lasso associé à la sélection de la stabilité dans le modèle, où toutes les variables ont été entrées de manière linéaire. Le gam a ensuite été ajusté à l'aide des variables sélectionnées. Je suis tout à fait d'accord avec le fait que la sélection de variables consiste à estimer certains paramètres à zéro, et l'application l'a fait exactement dans un modèle gam par une procédure en deux étapes. Je suis sûr que gamsel fournit une approche plus systématique. Mon point de vue était que sans une telle approche, la sélection de variables peut être un raccourci utile.
NRH

1
L'utilisation d'une méthode non pénalisée pour réajuster les variables sélectionnées dans une phase de pénalisation antérieure n'est pas appropriée. Ce serait considérablement biaisé. Et la sélection de variables non dénaturées n’est pas un bon raccourci.
Frank Harrell

1
La sélection de la stabilité est plus conservatrice que la sélection de variables utilisant le lasso et le réajustement sans pénalisation. On s’attend à ce que ce dernier ne fonctionne pas très bien du point de vue prédictif (comme mesure par validation croisée). Lorsque, dans un cas concret, je constate par l'intermédiaire d'une validation croisée que la sélection variable + gam donne de meilleures performances prédictives que l'estimateur par crête ou par lasso, je mesure si la procédure est bonne.
NRH

1
Veuillez définir "sélection de la stabilité". Et le réajustement sans pénalisation est anti-conservateur.
Frank Harrell

4

Permettez-moi de commenter l'affirmation suivante: "... l'ajustement des paramètres k à n <k observations ne se produira tout simplement pas."

En chimiométrie, nous nous intéressons souvent aux modèles prédictifs et la situation k >> n est fréquemment rencontrée (par exemple dans les données spectroscopiques). Ce problème est généralement résolu simplement en projetant les observations dans un sous-espace de dimension inférieure a, où a <n, avant la régression (par exemple, la régression en composantes principales). En utilisant la régression partielle des moindres carrés, la projection et la régression sont effectuées simultanément, ce qui favorise la qualité de la prédiction. Les méthodes mentionnées trouvent des pseudo-inverses optimaux à une matrice de covariance ou de corrélation (singulière), par exemple par décomposition en valeurs singulières.

L'expérience montre que les performances prédictives des modèles multivariés augmentent lorsque les variables bruitées sont supprimées. Ainsi, même si nous sommes capables, de manière significative, d’estimer k paramètres n’ayant que n équations (n ​​<k), nous nous efforçons de disposer de modèles parcimonieux. À cette fin, la sélection variable devient pertinente et une grande partie de la littérature chimiométrique est consacrée à ce sujet.

Bien que la prévision soit un objectif important, les méthodes de projection offrent en même temps un éclairage précieux sur, par exemple, les modèles de données et la pertinence des variables. Ceci est facilité principalement par diverses représentations graphiques du modèle, telles que les scores, les chargements, les résidus, etc.

La technologie chimiométrique est largement utilisée, par exemple dans l'industrie où les prévisions fiables et précises comptent vraiment.


3

Oui, dans plusieurs cas bien connus, la sélection de variables n'est pas nécessaire. L’apprentissage en profondeur est devenu un peu overhyped pour cette raison.

Par exemple, lorsqu'un réseau de neurones compliqué ( http://cs231n.github.io/convolutional-networks/ ) tente de prédire si une image centrée contient un visage humain, les coins de l'image ont généralement une valeur prédictive minimale. La modélisation traditionnelle et la sélection de variables obliger le modélisateur à supprimer les pixels de coin en tant que prédicteurs; Cependant, le réseau de neurones alambiqué est suffisamment intelligent pour essentiellement éliminer ces prédicteurs automatiquement. Cela est vrai pour la plupart des modèles d'apprentissage en profondeur qui tentent de prédire la présence d'un objet dans une image (par exemple, les voitures autonomes qui "prédisent" les marques de voie, les obstacles ou d'autres voitures dans des séquences vidéo en streaming intégrées).

L'apprentissage en profondeur est probablement excessif pour de nombreux problèmes traditionnels, tels que les ensembles de données de petite taille ou les connaissances de domaine abondantes, de sorte que la sélection de variables traditionnelle restera probablement pertinente pendant longtemps, du moins dans certains domaines. Néanmoins, l’apprentissage en profondeur est formidable lorsque vous souhaitez élaborer ensemble une "très bonne" solution avec une intervention humaine minimale. Il me faudrait peut-être de nombreuses heures pour créer et sélectionner des prédicteurs reconnaissant les chiffres manuscrits dans les images, mais avec un réseau de neurones compliqué et une sélection de variable zéro, je peux obtenir un modèle à la pointe de la technologie en moins de 20 minutes à l’aide de TensorFlow de Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).


3
J'aime vraiment cette perspective DL. Dans Computer Vision, les matrices de données que vous rencontrez sont des images 2D aplaties, où la signification d’une colonne particulière dépend de l’observation. Par exemple, le pixel 147 peut être le visage d’un chat dans l’image n ° 27, mais c’est le mur d’arrière-plan de l’image n ° 42. C'est pourquoi ConvNet est si puissant parce qu'il possède une invariance translationnelle / rotationnelle intégrée.
HoraceT
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.