Il y a des rumeurs depuis des années que Google utilise toutes les fonctionnalités disponibles pour construire ses algorithmes prédictifs. Cependant, à ce jour, aucune clause de non-responsabilité, explication ou livre blanc ne permet de clarifier et / ou de contester cette rumeur. Même leurs brevets publiés ne facilitent pas la compréhension. Par conséquent, personne à l'extérieur de Google ne sait ce qu'il fait, à ma connaissance.
/ * Mis à jour en septembre 2019, un évangéliste de Google Tensorflow a déclaré lors d'une présentation que les ingénieurs de Google évaluent régulièrement plus de 5 milliards de paramètres pour la version actuelle de PageRank . * /
Comme le note le PO, l'un des plus gros problèmes de la modélisation prédictive est la confusion entre le test d'hypothèse classique et la spécification minutieuse du modèle par rapport à l'exploration de données pure. Les personnes formées de manière classique peuvent devenir assez dogmatiques sur le besoin de "rigueur" dans la conception et le développement de modèles. Le fait est que, lorsqu'il est confronté à un grand nombre de prédicteurs candidats et à de multiples cibles possibles ou variables dépendantes, le cadre classique ne fonctionne pas, ne tient pas ou ne fournit pas de conseils utiles. De nombreux articles récents décrivent ce dilemme de Chattopadhyay et le brillant article de Lipson Data Smashing: Un ordre caché dissimulé dans les données http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Le principal goulot d'étranglement est que la plupart des algorithmes de comparaison de données s'appuient aujourd'hui sur un expert humain pour spécifier les «caractéristiques» des données pertinentes pour la comparaison. Nous proposons ici un nouveau principe pour estimer la similarité entre les sources de flux de données arbitraires, n’utilisant ni connaissance de domaine ni apprentissage.
Au document de l'ARE de l'année dernière sur les problèmes de politique de prévision de Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 qui plaide en faveur de l'extraction et de la prédiction de données en tant qu'outils utiles dans l'élaboration des politiques économiques, citant des cas où "l'inférence causale n'est pas centrale, ni même nécessaire. "
Le fait est que la question la plus importante, 64 000 dollars, est le changement de mentalité et les défis du cadre classique de test d'hypothèses implicite dans, par exemple, ce symposium Edge.org sur la pensée scientifique "obsolète" https://www.edge.org/ réponses / ce-que-scientifique-idée-est-prêt-à-la-retraite ainsi que ce récent article de Eric Beinhocker sur la "nouvelle économie" qui présente des propositions radicales pour l'intégration de disciplines très différentes telles que l'économie comportementale, la théorie de la complexité, le modèle prédictif la théorie du développement, des réseaux et des portefeuilles en tant que plate-forme pour la mise en œuvre et l'adoption de politiques https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Il va sans dire que ces questions vont bien au-delà des préoccupations économiques et suggèrent que nous sommes en train de changer radicalement les paradigmes scientifiques. Les points de vue changeants sont aussi fondamentaux que les distinctions entre réductionnisme, principe de plénitude d'Epicurus ou principe explicatif de plénitude d'Epicurus ou explications multiples qui stipulent grossièrement que si plusieurs résultats expliquent quelque chose, conservez-les tous ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Bien sûr, des types comme Beinhocker ne sont absolument pas gênés par des préoccupations pratiques concernant les solutions statistiques appliquées à ce paradigme en évolution. En ce qui concerne la sélection de variables de dimensions ultra-élevées, le PO est relativement peu spécifique en ce qui concerne les approches viables de construction de modèles qui pourraient exploiter, par exemple, Lasso, LAR, des algorithmes pas à pas ou des "modèles d'éléphant" qui utilisent toutes les informations disponibles. La réalité est que, même avec AWS ou un superordinateur, vous ne pouvez pas utiliser toutes les informations disponibles en même temps - il n’ya tout simplement pas assez de RAM pour tout charger. Qu'est-ce que cela signifie? Des solutions de contournement ont été proposées, par exemple, la découverte par la NSF dans des ensembles de données complexes ou volumineux: thèmes statistiques communspour «diviser pour régner» des algorithmes d'exploration de données massive, par exemple, article de Wang et al, A Survey of Statistical Method and Computing for Big Data ( http://www.arxiv.org/pdf/1502.07989.pdf) , ainsi que Leskovec, et al. livre Exploitation d'ensembles de données volumineux http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Dasas
Il existe maintenant littéralement des centaines, voire des milliers d'articles traitant de divers aspects de ces défis, proposant tous des moteurs analytiques très différents comme noyau des algorithmes «diviser pour conquérir»; modèles "d’apprentissage en profondeur" non supervisés; théorie des matrices aléatoires appliquée à la construction de covariances massives; Modèles de tenseurs bayésiens à la régression logistique classique, supervisée, et plus encore. Il y a une quinzaine d'années, le débat portait en grande partie sur des questions relatives aux avantages relatifs des solutions bayésiennes hiérarchiques par rapport aux modèles de mélanges finis fréquentistes. Dans un article traitant de ces questions, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfest parvenu à la conclusion que les différentes approches théoriques produisaient dans la pratique des résultats largement équivalents, à l’exception des problèmes impliquant des données rares et / ou de grande dimension pour lesquelles les modèles HB avaient l’avantage. Aujourd'hui, avec l'avènement des solutions de contournement de D & C, tous les modèles d'arbitrage HB qui ont pu être appréciés par le passé ont été éliminés.
La logique de base de ces solutions de contournement D & C sont, dans l’ensemble, des extensions de la célèbre technique de forêt aléatoire de Breiman qui reposait sur un rééchantillonnage par démarrage des observations et des caractéristiques. Breiman a fait son travail à la fin des années 90 sur un seul processeur alors que des données volumineuses impliquaient quelques dizaines de concerts et quelques milliers de fonctionnalités. Sur les plates-formes multi-coeurs massivement parallèles d'aujourd'hui, il est possible d'exécuter des algorithmes analysant des téraoctets de données contenant des dizaines de millions de fonctionnalités, créant ainsi des millions de mini-modèles "RF" en quelques heures.
Toutes sortes de questions importantes se posent. L’une concerne la perte de précision due à la nature approximative de ces solutions de contournement. Chen et Xie ont abordé cette question dans leur document intitulé Une approche divisée pour l'analyse de données extrêmement volumineuses http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012/2012.1.pdf où ils concluent que les approximations sont indistinctement différentes des modèles "d’information complète".
Une deuxième préoccupation qui, à ma connaissance, n’a pas été suffisamment abordée dans la littérature, concerne les résultats obtenus (c.-à-d. Les "paramètres") de millions de mini-modèles prédictifs potentiellement une fois les solutions palliatives. ont été rassemblés et résumés. En d'autres termes, comment exécuter quelque chose d'aussi simple que de "scorer" de nouvelles données avec ces résultats? Les coefficients du mini-modèle doivent-ils être sauvegardés et stockés ou faut-il simplement réexécuter l'algorithme d & c sur de nouvelles données?
Dans son livre, Numbers Rule Your World , Kaiser Fung décrit le dilemme auquel Netflix est confronté lorsqu'il est présenté avec un ensemble de seulement 104 modèles remis par les gagnants de leur concours. Les gagnants avaient en effet minimisé le MSE par rapport à tous les autres concurrents, mais cela ne se traduisait que par une amélioration de la précision de plusieurs décimales sur l'échelle de notation à 5 points de type Likert utilisée par leur système de recommandation de film. En outre, la maintenance informatique requise pour cet ensemble de modèles coûte beaucoup plus cher que les économies réalisées grâce à "l'amélioration" de la précision des modèles.
Il y a ensuite toute la question de savoir si "l'optimisation" est même possible avec des informations de cette ampleur. Par exemple, le physicien et ingénieur financier Emmanuel Derman, dans son livre My Life as a Quant, suggère que l'optimisation est un mythe insoutenable, du moins en ingénierie financière.
Enfin, des questions importantes concernant l’importance relative des caractéristiques avec un grand nombre de caractéristiques doivent encore être abordées.
Il n’ya pas de réponse facile aux questions concernant le besoin de sélection de variables et les nouveaux défis posés par les solutions de contournement actuelles et épicuriennes qui restent à résoudre. L'essentiel est que nous sommes tous des scientifiques de données maintenant.
**** EDIT ***
Références
Chattopadhyay I, Lipson H. 2014 Broyage des données: découverte de l'ordre caché dans les données. JR Soc. Interface 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Ludwig, Sendhil Mullainathan et Ziad Obermeyer. 2015. "Problèmes de politique de prévision." American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, Question annuelle 2014: QUELLE IDÉE SCIENTIFIQUE PRÊTE À LA RETRAITE?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, En quoi les profonds changements économiques rendent les débats de gauche à droite sans pertinence, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Principe Epicure d'explications multiples: conservez tous les modèles. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Découverte dans des ensembles de données complexes ou volumineux: Thèmes statistiques communs, Un atelier financé par la National Science Foundation, 16-17 octobre 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Méthodes statistiques et calcul du big data, document de travail de Chun Wang, Chen Ming-Hui, Elizabeth Schifano, Jing Wu et Jun Yan, 29 octobre 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press; 2 édition (29 décembre 2014) ISBN: 978-1107077232
Matrices de covariance pour grands échantillons et analyse de données de grande dimension (série de Cambridge en mathématiques statistiques et probabilistes), par Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 édition (30 mars 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE et IMRAN S. CURRIM, Une comparaison empirique de modèles de choix logit avec des représentations discrètes ou continues de l'hétérogénéité, Journal of Marketing Research, 479 Vol. XXXIX (novembre 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Une approche dédoublée pour l'analyse de données extraordinairement volumineuses, Xueying Chen et Minge Xie, Rapport technique DIMACS 2012-01, janvier 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012/20121.pdf
Kaiser Fung, Les nombres dominent votre monde: L'influence cachée des probabilités et des statistiques sur tout ce que vous faites, McGraw-Hill Education; 1 édition (15 février 2010) ISBN: 978-0071626538
Emmanuel Derman, Ma vie en tant que quantité: réflexions sur la physique et la finance, Wiley; 1 édition (11 janvier 2016) ISBN: 978-0470192733
* Mise à jour en novembre 2017 *
Le livre de Nathan Kutz de 2013, Modélisation pilotée par les données et calcul scientifique: Méthodes pour les systèmes complexes et les données volumineuses, est une excursion mathématique et axée sur les EDP sur la sélection de variables ainsi que sur des méthodes et des outils de réduction de dimensions. Vous trouverez une excellente introduction d'une heure à sa réflexion dans cette vidéo de juin 2017 sur Youtube, Découverte pilotée par les données de systèmes dynamiques et d'EDP . Il y fait référence aux derniers développements dans ce domaine. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop