Ma question vient du fait suivant. J'ai lu des articles, des blogs, des conférences ainsi que des livres sur l'apprentissage automatique. Mon impression est que les praticiens de l'apprentissage automatique semblent être indifférents à beaucoup de choses qui intéressent les statisticiens et l'économétrie. En particulier, les praticiens de l'apprentissage automatique mettent l'accent sur la précision des prédictions plutôt que sur l'inférence.
Un tel exemple s'est produit lorsque je suivais le Machine Learning d' Andrew Ng sur Coursera. Lorsqu'il discute du modèle linéaire simple, il ne mentionne rien sur la propriété BLUE des estimateurs ni sur la façon dont l'hétéroskédasticité «invaliderait» l'intervalle de confiance. Au lieu de cela, il se concentre sur la mise en œuvre de la descente de gradient et le concept de validation croisée / courbe ROC. Ces sujets n'étaient pas abordés dans mes cours d'économétrie / statistique.
Un autre exemple s'est produit lorsque j'ai participé à des compétitions Kaggle. Je lisais le code et les pensées des autres. Une grande partie des participants vient de tout jeter dans SVM / random forest / XGBoost.
Un autre exemple concerne la sélection de modèle pas à pas. Cette technique est largement utilisée, au moins en ligne et sur Kaggle. De nombreux manuels classiques d'apprentissage automatique le couvrent également, comme Introduction à l'apprentissage statistique. Cependant, selon cette réponse (qui est assez convaincante), la sélection pas à pas des modèles est confrontée à beaucoup de problèmes surtout quand il s'agit de "découvrir le vrai modèle". Il semble qu'il n'y ait que deux possibilités: soit les praticiens de l'apprentissage automatique ne connaissent pas le problème par étapes, soit ils le font mais ils s'en moquent.
Donc, voici mes questions:
- Est-il vrai que (en général) les praticiens de l'apprentissage automatique se concentrent sur la prédiction et ne se soucient donc pas de beaucoup de choses qui intéressent les statisticiens / économistes?
- Si c'est vrai, quelle en est la raison? Est-ce parce que l'inférence est plus difficile dans un certain sens?
- Il existe des tonnes de documents sur l'apprentissage automatique (ou la prédiction) en ligne. Si je souhaite en savoir plus sur l'inférence, quelles sont les ressources en ligne que je peux consulter?
Mise à jour : Je viens de réaliser que le mot «inférence» pouvait potentiellement signifier beaucoup de choses. Ce que je voulais dire par «inférence» renvoie à des questions telles que
Est-ce que causé ou causé ? Ou plus généralement, quelles sont les relations causales entre ?Y Y X X 1 , X 2 , ⋯ , X n
Puisque "tous les modèles sont faux", dans quelle mesure notre modèle est-il faux du vrai modèle?
Compte tenu des informations d'un échantillon, que pouvons-nous dire sur la population et dans quelle mesure pouvons-nous le dire?
En raison de ma connaissance très limitée des statistiques, je ne sais même pas si ces questions relèvent du domaine des statistiques ou non. Mais ce sont les types de questions auxquelles les praticiens de l'apprentissage automatique ne semblent pas se soucier. Peut-être que les statisticiens ne s'en soucient pas non plus? Je ne sais pas.
fortunes
package sur CRAN. Ceci juste pour dire que vous n'êtes pas seul avec l'impression, que la rigueur mathématique n'est pas toujours la principale préoccupation dans l'apprentissage automatique.