Les données d'entrée corrélées entraînent-elles un sur-ajustement avec les réseaux de neurones?

13

À mon avis, les données d'entrée corrélées doivent conduire à un sur-ajustement dans les réseaux de neurones car le réseau apprend la corrélation, par exemple le bruit dans les données.

Est-ce correct?

correlation neural-networks overfitting

— Peter234
source

11

En fait non.

La question en tant que telle est un peu générale et mélange deux choses qui ne sont pas vraiment liées. Le sur-ajustement est généralement considéré comme la qualité opposée à une description généralisée; en ce sens qu'un réseau surchargé (ou surentraîné) aura moins de pouvoir de généralisation. Cette qualité est principalement déterminée par l'architecture du réseau, la formation et la procédure de validation. Les données et leurs propriétés n'entrent que comme "quelque chose sur lequel la procédure de formation se déroule". Il s'agit plus ou moins de "connaissances de manuels"; vous pouvez essayer "Une introduction à l'apprentissage statistique" de James, Witten, Hastie et Tibshirani. Ou "Pattern Recognition" par Bishop (mon livre préféré sur le sujet en général). Ou "Pattern Recognition and Machine Learning", également par Bishop.

Pour la corrélation elle-même: considérons l'espace d'entrée ayant une certaine dimension. Quelle que soit la transformation que vous utilisez, la dimensionnalité restera la même - l'algèbre linéaire le dit. Dans un cas, la base donnée sera complètement non corrélée - c'est ce que vous obtenez, lorsque vous dé-corrélez les variables, ou appliquez simplement PAT (Principe Axis Transformation.) Prenez n'importe quel livre d'algèbre linéaire pour cela.

Puisqu'un réseau de neurones avec une architecture appropriée peut modéliser n'importe quelle fonction (!), Vous pouvez supposer en toute sécurité qu'il pourrait également modéliser d'abord le PAT, puis faire ce qu'il devrait également faire - par exemple, la classification, la régression, etc.

Vous pouvez également considérer la corrélation comme une caractéristique, qui devrait faire partie de la description du réseau neuronal, car c'est une propriété des données. La nature de la corrélation n'est pas vraiment importante, sauf si c'est quelque chose qui ne devrait pas faire partie des données. Ce serait en fait un sujet différent - vous devriez modéliser ou quantifier quelque chose comme du bruit dans l'entrée et en tenir compte.

Donc, en résumé, non. Les données corrélées signifient que vous devriez travailler plus fort pour rendre la gestion des données techniquement plus simple et plus efficace. Un sur-ajustement peut se produire, mais il ne se produira pas car il existe des données corrélées.

— chérubin
source

Désolé, mais je n'ai toujours pas compris pourquoi. De plus, mon doute est un peu générique. Je cherchais une réponse à "Les données d'entrée corrélées peuvent-elles être nocives pour les réseaux de neurones?". Ici, vous affirmez: "vous pouvez supposer en toute sécurité qu'il pourrait également être le premier modèle de PAT". Mais comment faites-vous cette hypothèse. Et puis ma question de suivi est ce qui se passe si l'architecture neuronale ne manque pas de modéliser le PAT?

— bytestorm

@bytestorm: votre première question est différente de l'original. Une entrée corrélée peut limiter les performances de votre ANN (ainsi que pour d'autres méthodes). Mais ce n'est pas une propriété inhérente d'un ANN. Quant à la deuxième question, il s'agit moins d'une hypothèse, mais simplement d'une explication exemplaire pour laquelle les RNA pourraient modéliser le PAT. En pratique, je ne le ferais pas comme ça, ni recommander de le faire.

— chérubin

6

chérubin a raison en ce qui concerne sa déclaration concernant le sur-ajustement. Cependant, je pense que la discussion sur les fonctionnalités hautement corrélées et ANN simplifie exagérément le problème.

Oui, il est vrai en théorie qu'un ANN peut approximer n'importe quelle fonction. Cependant, dans la pratique, ce n'est pas une bonne idée d'inclure de nombreuses fonctionnalités hautement corrélées. Cela entraînera de nombreuses redondances dans le modèle. L'inclusion de telles redondances introduira des complexités inutiles et, ce faisant, pourrait augmenter le nombre de minima locaux. Étant donné que la fonction de perte d'un ANN n'est pas intrinsèquement lisse, l'introduction d'une rugosité inutile n'est pas une bonne idée.

— Jacob H
source