Identifiabilité des modèles de réseaux de neurones

Il est assez intuitif que la plupart des topologies / architectures de réseaux de neurones ne soient pas identifiables. Mais quels sont les résultats bien connus sur le terrain? Existe-t-il des conditions simples qui permettent / empêchent l’identifiabilité? Par exemple,

tous les réseaux avec des fonctions d'activation non linéaires et plusieurs couches cachées ne sont pas identifiables
tous les réseaux avec plus de deux unités cachées ne sont pas identifiables

Ou des choses comme celles-ci. REMARQUE : je ne dis pas que ces conditions empêchent l'identification (bien qu'elles me semblent de très bons candidats). Ce ne sont que des exemples de ce que je veux dire par «conditions simples».

Si cela aide à affiner la question, n'hésitez pas à ne considérer que les architectures à action directe et récurrentes. Si cela ne suffit toujours pas, je serais satisfait d'une réponse qui couvrirait au moins une architecture parmi MLP, CNN et RNN. J'ai jeté un rapide coup d'œil sur le Web, mais il semble que la seule discussion que j'ai pu trouver était sur Reddit. Allez, les gens, nous pouvons faire mieux que Reddit ;-)

— DeltaIV
source

quel est le but de cet exercice académique?

— Aksakal

Puis-je vous demander ce que vous avez considéré / examiné à partir de la littérature existante? Cela semble être une question très niche; les très rares références pertinentes que j'ai vues associées dans la littérature sur l'identification du système plutôt que sur la LM standard (par exemple 1 , 2 , 3 ). Pouvez-vous définir votre question un peu plus dans le contexte du ML? L'identifiabilité est principalement un aspect des systèmes de contrôle; faites-vous "juste" référence à la relation 1-1?

— usεr11852

Je pense que vous devriez pouvoir prouver facilement ces résultats en utilisant le théorème de fonction implicite.

— Alex R.

@Aksakal quel est le but du calcul de la probabilité que l'urne soit vide à midi, après des étapes infinies dans lesquelles 10 balles sont ajoutées et une retirée? . Personne, mais pourtant la question était amusante. Toutes les questions n'ont pas besoin d'avoir une pertinence pratique pour mériter une réponse. Ou vous pourriez dire que le manque d'identifiabilité vous empêche de faire une inférence précise sur les poids NN, mais ce serait une fausse justification parce que presque personne n'est intéressé ...

— DeltaIV

@DeltaIV, c'est une question valable pour CV. Le problème est que personne ne se soucie de penser à ces trucs, je le crains. Tout le monde est occupé à construire des modèles et à gagner de l'argent, lorsque les modèles cesseront de fonctionner, c'est alors que des penseurs de l'IA au chômage réfléchiront à l'identification

— Aksakal

Réponses:

Les FFN monocouches linéaires ne sont pas identifiés

La question a été modifiée depuis pour exclure ce cas; Je le retiens ici car la compréhension du cas linéaire est un exemple simple du phénomène d'intérêt.

Considérons un réseau neuronal à action directe avec 1 couche cachée et toutes les activations linéaires. La tâche est une tâche de régression OLS simple.

Nous avons donc le modèle $\hat{y}=X A B$ et l'objectif est

min_{UNE, B} \frac{1}{2} | | y - X UNE B | |_{2}^{2}

$\min_{A,B} \frac{1}{2}|| y - X A B ||_2^2$

pour un choix de $A, B$ de forme appropriée. $A$ est les poids d'entrée à cachés, et $B$ est le poids caché à la sortie.

Il est clair que les éléments des matrices de poids ne sont pas identifiables en général, car il existe un certain nombre de configurations possibles pour lesquelles deux paires de matrices $A,B$ avoir le même produit.

Les FFN monocouches non linéaires ne sont toujours pas identifiés

À partir du FFN monocouche linéaire, nous pouvons également observer la non-identifiabilité dans le FFN monocouche non linéaire .

Par exemple, l'ajout d'un $\tanh$ la non-linéarité à l'une des activations linéaires crée un réseau non linéaire. Ce réseau n'est toujours pas identifié, car pour toute valeur de perte, une permutation des poids de deux (ou plus) neurones sur une couche, et de leurs neurones correspondants sur la couche suivante, entraînera également la même valeur de perte.

En général, les réseaux de neurones ne sont pas identifiés

Nous pouvons utiliser le même raisonnement pour montrer que les réseaux de neurones ne sont pas identifiés dans toutes les paramétrisations, sauf très particulières.

Par exemple, il n'y a aucune raison particulière pour que les filtres convolutionnels se produisent dans un ordre particulier. Il n'est pas non plus nécessaire que les filtres convolutifs aient un signe particulier, car les poids suivants pourraient avoir le signe opposé pour "inverser" ce choix.

De même, les unités d'un RNN peuvent être permutées pour obtenir la même perte.

Voir aussi: Peut-on utiliser MLE pour estimer les poids du réseau neuronal?

— Sycorax dit de réintégrer Monica
source

J'excluais spécifiquement ce cas (fonctions d'activation linéaires) dans les commentaires de ma question, car il est trivial d'obtenir un modèle identifiable, à partir de celui-ci, qui donne exactement les mêmes prédictions , avec une simple reparamétrisation. Ce n'est pas "intrinsèquement non identifiable", pour ainsi dire. Je faisais donc spécifiquement référence aux fonctions d'activation non linéaires. Mais je pense que je devrais inclure cela dans ma question, pas seulement le laisser dans les commentaires. Dans quelques heures, je modifierai ma question en conséquence.

— DeltaIV

Il est recommandé de modifier votre question pour clarifier ce que vous souhaitez savoir.

— Sycorax dit Réintégrer Monica le

tu as raison, je le fais d'habitude, mais cette fois j'ai oublié. Ma faute.

— DeltaIV

Là au moins $n!$ optima global lors de l'ajustement d'un réseau neuronal à une couche, constitué de $n$ les neurones. Cela vient du fait que, si vous échangez deux neurones à un niveau spécifique, puis que vous échangez les poids attribués à ces neurones au niveau suivant, vous obtiendrez exactement le même ajustement.

— RUser4512
source