Le cas échéant, quels algorithmes d'apprentissage automatique sont acceptés comme étant un bon compromis entre explicabilité et prédiction?


9

Les textes d'apprentissage automatique décrivant des algorithmes tels que les machines de renforcement de gradient ou les réseaux de neurones commentent souvent que ces modèles sont bons pour la prédiction, mais cela se fait au prix d'une perte d'explicabilité ou d'interprétabilité. Inversement, les arbres à décision unique et les modèles de régression classiques sont étiquetés comme bons à expliquer, mais donnant une précision de prédiction (relativement) médiocre par rapport aux modèles plus sophistiqués tels que les forêts aléatoires ou les SVM. Existe-t-il des modèles d'apprentissage automatique généralement reconnus comme représentant un bon compromis entre les deux? Existe-t-il une littérature énumérant les caractéristiques des algorithmes qui permettent de les expliquer? (Cette question a déjà été posée lors d'une validation croisée)

Réponses:


3

Existe-t-il une littérature énumérant les caractéristiques des algorithmes qui permettent de les expliquer?

La seule littérature que je connaisse est le récent article de Ribero, Singh et Guestrin. Ils définissent d'abord l'explicabilité d'une seule prédiction:

Par «expliquer une prédiction», nous entendons présenter des artefacts textuels ou visuels qui fournissent une compréhension qualitative de la relation entre les composants de l'instance (par exemple, les mots dans le texte, les correctifs dans une image) et la prédiction du modèle.

Les auteurs expliquent plus en détail ce que cela signifie pour des exemples plus concrets, puis utilisent cette notion pour définir l'explicabilité d'un modèle. Leur objectif est d'essayer et, pour ainsi dire, d'ajouter artificiellement l'explicabilité à des modèles par ailleurs transparents, plutôt que de comparer l'explicabilité des méthodes existantes. Le document peut être utile de toute façon, car il tente d'introduire une terminologie plus précise autour de la notion d '«explicabilité».

Existe-t-il des modèles d'apprentissage automatique généralement reconnus comme représentant un bon compromis entre les deux?

Je suis d'accord avec @Winter que le filet élastique pour la régression (non seulement logistique) peut être considéré comme un exemple d'un bon compromis entre la précision de la prédiction et l'explicabilité.

Pour un autre type de domaine d'application (séries temporelles), une autre classe de méthodes fournit également un bon compromis: la modélisation bayésienne des séries chronologiques structurelles. Il hérite de l'explicabilité de la modélisation classique des séries chronologiques structurelles et d'une certaine flexibilité de l'approche bayésienne. Semblable à la régression logistique, l'explicabilité est facilitée par les équations de régression utilisées pour la modélisation. Voir cet article pour une belle application en marketing et d'autres références.

En ce qui concerne le contexte bayésien que nous venons de mentionner, vous voudrez peut-être également examiner les modèles graphiques probabilistes. Leur explicabilité ne repose pas sur des équations de régression, mais sur des moyens graphiques de modélisation; voir "Modèles graphiques probabilistes: principes et techniques" par Koller et Friedman pour un excellent aperçu.

Je ne sais pas si nous pouvons nous référer aux méthodes bayésiennes ci-dessus comme un "bon compromis généralement accepté". Ils peuvent ne pas être suffisamment connus pour cela, surtout par rapport à l'exemple du filet élastique.


Maintenant que j'ai eu plus de chance de considérer le document lié de Ribeiro et al., Je voudrais dire que la section 2 «Le cas de l'explication» contient quelque chose d'une définition utile de l '«explicabilité», et fait un travail décent de souligner son importance, et en tant que tel, mérite d'être largement lu au sein de la communauté Data Science.
Robert de Graaf

Bien que la prémisse de ma question n'ait pas été acceptée sur CV, @SeanEaster m'a aidé avec ce lien utile: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf

3

Existe-t-il des modèles d'apprentissage automatique généralement reconnus comme représentant un bon compromis entre les deux?

Je suppose qu'en étant bon en prédiction, vous entendez pouvoir ajuster les non-linéarités présentes dans les données tout en étant assez robuste au sur-ajustement. Le compromis entre l'interprétabilité et la possibilité de prédire ces non-linéarités dépend des données et de la question posées. Il n'y a vraiment pas de repas gratuit en science des données et aucun algorithme unique ne peut être considéré comme le meilleur pour un ensemble de données (et il en va de même pour l'interprétabilité).

La règle générale devrait être que plus vous connaissez d'algorithmes, mieux c'est pour vous, car vous pourrez plus facilement adopter vos besoins spécifiques.

Si je devais choisir mon préféré pour la tâche de classification que j'utilise souvent dans un environnement commercial, je choisirais un filet élastique pour la régression logistique . Malgré une forte hypothèse sur le processus qui génère les données, il peut facilement les adopter grâce au terme de régularisation qui maintient son interprétabilité à partir de la régression logistique de base.

Existe-t-il une littérature énumérant les caractéristiques des algorithmes qui permettent de les expliquer?

Je vous suggère de choisir un livre bien écrit qui décrit les algorithmes d'apprentissage automatique couramment utilisés et leurs avantages et inconvénients dans différents scénarios. Un exemple d'un tel livre peut être Les éléments de l'apprentissage statistique par T. Hastie, R. Tibshirani et J. Friedman


3
TBH était ma frustration à l'égard de ce texte exact - qui utilise le mot «interprétable» à plusieurs reprises en relation avec différents modèles, et à un moment dit «... les applications d'exploration de données nécessitent des modèles interprétables. Il ne suffit pas de produire simplement des prédictions »(section 10.7), sans que je puisse trouver des éléments sur la manière d'identifier un modèle interprétable - ce qui a suscité la question. Bien que j'étais et je répugne à paraître critique à l'égard d'un texte aussi apprécié. De même, l'article de TIbshirani présentant le LASSO énumère «interprétable» comme l'une de ses vertus sans dire ce qu'est «interprétable».
Robert de Graaf

1

Voir peut-être ma réponse concernant l'efficacité déraisonnable des ensembles et les compromis entre explication et prédiction. La longueur minimale des messages (MML, Wallace 2005) donne une définition formelle de l'explication en termes de compression de données et motive l'attente que les explications s'adaptent généralement sans surajustement et que les bonnes explications génèrent de bonnes prédictions généralisables. Mais il touche également à la théorie formelle pourquoi les ensembles prédiront mieux - un résultat remontant à (Solomonoff 1964) sur la prédiction optimale et intrinsèque aux approches entièrement bayésiennes: intégrer sur la distribution postérieure, ne pas simplement choisir la moyenne, la médiane, ou le mode.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.