Un réseau de neurones est une boîte noire dans le sens où bien qu'il puisse approximer n'importe quelle fonction, étudier sa structure ne vous donnera aucune idée de la structure de la fonction approchée.
À titre d'exemple, une utilisation courante des réseaux de neurones dans le secteur bancaire est de classer les prêteurs parmi les «bons payeurs» et les «mauvais payeurs». Vous disposez d'une matrice de caractéristiques d'entrée (sexe, âge, revenu, etc.) et d'un vecteur de résultats ("par défaut", "non par défaut", etc.). Lorsque vous modélisez cela à l'aide d'un réseau neuronal, vous supposez qu'il existe une fonction , au sens propre d'une fonction mathématique. Cette fonction f peut être arbitrairement complexe et peut changer en fonction de l'évolution de l'entreprise, vous ne pouvez donc pas la dériver à la main.CRF( C) = R
Ensuite, vous utilisez le réseau neuronal pour construire une approximation de qui a un taux d'erreur acceptable pour votre application. Cela fonctionne et la précision peut être arbitrairement petite - vous pouvez étendre le réseau, affiner ses paramètres d'entraînement et obtenir plus de données jusqu'à ce que la précision atteigne vos objectifs.F
Le problème de la boîte noire est le suivant: l'approximation donnée par le réseau de neurones ne vous donnera aucune idée de la forme de f. Il n'y a pas de lien simple entre les poids et la fonction en cours d'approximation. Même l'analyse de la caractéristique d'entrée non pertinente est un problème ouvert (voir ce lien ).
De plus, d'un point de vue statistique traditionnel, un réseau de neurones est un modèle non identifiable: étant donné un ensemble de données et une topologie de réseau, il peut y avoir deux réseaux de neurones avec des poids différents et le même résultat. Cela rend l'analyse très difficile.
À titre d'exemple de «modèles non noirs» ou de «modèles interprétables», vous disposez d'équations de régression et d'arbres de décision. Le premier vous donne une approximation sous forme fermée de f où l'importance de chaque élément est explicite, le second est une description graphique de certains rapports risques / odds relatifs.