Je comprends que, étant donné un ensemble de observations indépendantes l' estimateur du maximum de vraisemblance (ou, de manière équivalente, le MAP avec a priori plat / uniforme) qui identifie les paramètres \ mathbf {θ} qui produisent la distribution du modèle p_ {modèle} \ gauche (\, \ cdot \,; \ mathbf {θ} \ droite) qui correspond le mieux à ces observations sera
ou, plus commodément
et voyez le rôle que peut jouer dans la définition d'une fonction de perte pour les réseaux de neurones profonds multi-classes, dans laquelle correspond aux paramètres entraînables du réseau (par exemple, et les observations sont les paires d'activations d'entrée et les étiquettes de classe correctes correspondantes , = { }, en prenant
Ce que je ne comprends pas, c'est comment cela se rapporte à la soi-disant «entropie croisée» de la sortie correcte (vectorisée), , et aux activations de sortie correspondantes du réseau, qui est utilisé dans la pratique en cas d' erreur de mesure / perte lors de la formation . Il existe plusieurs problèmes connexes:
Activations "comme probabilités"
L'une des étapes de l'établissement de la relation entre MLE et entropie croisée consiste à utiliser les activations de sortie "comme si" elles étaient des probabilités. Mais il n'est pas clair pour moi qu'ils le sont, ou du moins qu'ils le sont .
En calculant l'erreur d'apprentissage - en particulier, en l'appelant une "perte d'entropie croisée" - on suppose que (après normalisation des activations pour additionner à 1)
ou
afin que nous puissions écrire
Et ainsi
Mais alors que cela fait certainement de une probabilité (dans la mesure où tout est), il n'impose aucune restriction sur les autres activations.
Peut-on vraiment dire que vraiment des PMF dans ce cas? Y a-t-il quelque chose qui rend les pas en fait des probabilités (et simplement les "aiment") )?
Limitation à la catégorisation
L'étape cruciale ci-dessus pour assimiler MLE à entropie croisée repose entièrement sur la structure "one-hot" de qui caractérise un problème d'apprentissage multi-classe (à une seule étiquette). Toute autre structure du rendrait impossible le passage de à .
L'équation de la minimisation MLE et de l'entropie croisée est-elle limitée aux cas où les sont "à chaud"?
Différentes probabilités de formation et de prédiction
Lors de la prédiction, il est presque toujours vrai que
ce qui se traduit par des probabilités de prédiction correctes qui sont différentes des probabilités apprises au cours de la formation, sauf s'il est fiable que
Est-ce jamais le cas de manière fiable? Est-ce probablement au moins approximativement vrai? Ou existe-t-il un autre argument qui justifie cette équation de la valeur de l'activation apprise à la position de l'étiquette avec la probabilité que la valeur maximale des activations apprises se produise là?
Entropie et théorie de l'information
Même en supposant que les problèmes ci-dessus sont résolus et que les activations sont des PMF valides (ou peuvent être traitées de manière significative comme telles), de sorte que le rôle joué par l'entropie croisée dans le calcul ne pose pas de problème, il n'est pas clair de moi pourquoi il est utile ou significatif de parler de l'entropie de , puisque l'entropie de Shanon s'applique à un type d'encodage , qui n'est pas celui utilisé dans la formation du réseau.
Quel rôle l'entropie théorique de l'information joue-t-elle dans l'interprétation de la fonction de coût, au lieu de simplement fournir un outil (sous forme d'entropie croisée) pour en calculer un (qui correspond à MLE)?
softmax_cross_entropy_with_logits
: elles calculent et donc qui définit un réseau "conçu pour" produire des probabilités (au moins à l'emplacement de l'étiquette). Non?