Dans l'article intitulé Deep Learning and the Information Bottleneck Principle, les auteurs déclarent dans la section II A) ce qui suit:
Les neurones simples ne classent que les entrées séparables linéairement, car ils ne peuvent implémenter que des hyperplans dans leur espace d'entrée . Les hyperplans peuvent classer de manière optimale les données lorsque les entrées sont indépendantes de manière conditionnelle.
Pour le montrer, ils en déduisent ce qui suit. En utilisant le théorème de Bayes, ils obtiennent:
(1)
Où est l'entrée, est la classe et est la classe prédite (je suppose que n'est pas défini). Poursuivant, ils déclarent que:
(2)
Où est la dimension d'entrée et je ne suis pas sûr (encore une fois, les deux ne sont pas définis). En considérant un neurone sigmoïde, avec la fonction d'activation sigmoïde et la préactivation , après avoir inséré (2) dans (1), nous obtenons les valeurs de poids optimales et , lorsque les valeurs d'entrée .
Passons maintenant à mes questions. Je comprends comment l'insertion de (2) dans (1) conduit au poids optimal et aux valeurs d'entrée . Ce que je ne comprends pas cependant, c'est ce qui suit:
- Comment (1) est-il dérivé en utilisant le théorème de Bayes?
- Comment est dérivé (2)? Qu'est-ce que ? Quel est le sens de cela? Je suppose que cela a quelque chose à voir avec l'indépendance conditionnelle
- Même si les dimensions de x sont conditionnellement indépendantes, comment peut-on affirmer qu'il est égal à sa probabilité d'échelle? (c.-à-d. comment pouvez-vous indiquer ?)
EDIT: La variable est une variable de classe binaire. De cela, je suppose que est la "autre" classe. Cela résoudrait la question 1. Êtes-vous d'accord?