Les tests statistiques permettent de faire des inférences à partir de données, ils vous indiquent comment les choses sont liées. Le résultat est quelque chose qui a une signification réelle. Par exemple, comment le tabagisme est associé au cancer du poumon, à la fois en termes de direction et d'ampleur. Il ne vous dit toujours pas pourquoi les choses se sont passées. Pour expliquer pourquoi les choses se sont produites, nous devons également considérer l'interrelation avec d'autres variables et procéder aux ajustements appropriés (voir Pearl, J. (2003) CAUSALITÉ: MODÈLES, RAISONNEMENT ET INFÉRENCE).
L'apprentissage supervisé sert à faire des prédictions, il vous indique ce qui va se passer. Par exemple, étant donné le statut tabagique d'une personne, nous pouvons prédire si elle aura un cancer du poumon. Dans les cas simples, il vous dit toujours «comment», par exemple en examinant le seuil de tabagisme identifié par l'algorithme. Mais les modèles plus complexes sont plus difficiles ou impossibles à interpréter (deep learning / boosting avec beaucoup de fonctionnalités).
L'apprentissage non supervisé est souvent utilisé pour faciliter les deux précédents.
- Pour les tests statistiques, en découvrant des sous-groupes sous-jacents inconnus des données (clustering), nous pouvons déduire l'hétérogénéité des associations entre variables. Par exemple, le tabagisme augmente les chances d'avoir un cancer du poumon pour le sous-groupe A mais pas le sous-groupe B.
- Pour l'apprentissage supervisé, nous pouvons créer de nouvelles fonctionnalités pour améliorer la précision et la robustesse des prédictions. Par exemple, en identifiant des sous-groupes (regroupement) ou une combinaison de caractéristiques (réduction de dimension) qui sont associées à la probabilité d'avoir un cancer du poumon.
Lorsque le nombre de caractéristiques / variables augmente, la différence entre les tests statistiques et l'apprentissage supervisé devient plus importante. Les tests statistiques ne bénéficient pas nécessairement de cela, cela dépend par exemple si vous voulez faire une inférence causale en contrôlant d'autres facteurs ou en identifiant l'hétérogénéité dans les associations comme mentionné ci-dessus. L'apprentissage supervisé fonctionnera mieux si les fonctionnalités sont pertinentes et il ressemblera davantage à une boîte noire.
Lorsque le nombre d'échantillons augmente, nous pouvons obtenir des résultats plus précis pour les tests statistiques, des résultats plus précis pour l'apprentissage supervisé et des résultats plus robustes pour l'apprentissage non supervisé. Mais cela dépend de la qualité des données. Des données de mauvaise qualité peuvent introduire des biais ou du bruit dans les résultats.
Parfois, nous voulons savoir «comment» et «pourquoi» pour éclairer les actions interventionnelles, par exemple en identifiant que le tabagisme cause le cancer du poumon, une politique peut être élaborée pour y faire face. Parfois, nous voulons savoir «quoi» pour éclairer la prise de décision, par exemple découvrir qui est susceptible d'avoir un cancer du poumon et leur donner des traitements précoces. Un numéro spécial a été publié sur Science à propos de la prédiction et de ses limites ( http://science.sciencemag.org/content/355/6324/468). «Le succès semble être atteint de manière plus cohérente lorsque les questions sont abordées dans des efforts multidisciplinaires qui associent la compréhension humaine du contexte à la capacité algorithmique de gérer des téraoctets de données.» À mon avis, par exemple, les connaissances découvertes à l'aide de tests d'hypothèses peuvent aider à l'apprentissage supervisé en nous informant quelles données / fonctionnalités nous devons collecter en premier lieu. D'un autre côté, l'apprentissage supervisé peut aider à générer des hypothèses en informant quelles variables