Malheureusement, la réponse actuellement acceptée par @Sycorax, bien que détaillée, est incorrecte.
En fait, un excellent exemple de régression par entropie croisée catégorique - Wavenet - a été implémenté dans TensorFlow .
Le principe est que vous discrétisez votre espace de sortie et que votre modèle ne prédit que le bac respectif; voir la section 2.2 de l' article pour un exemple dans le domaine de la modélisation du son. Ainsi, alors que techniquement le modèle effectue une classification, la tâche finale résolue est la régression.
Un inconvénient évident est que vous perdez la résolution de sortie. Cependant, cela peut ne pas être un problème (au moins je pense que l'assistant artificiel de Google a parlé d'une voix très humaine ) ou vous pouvez jouer avec du post-traitement, par exemple en interpolant entre le bac le plus probable et ses deux voisins.
D'un autre côté, cette approche rend le modèle beaucoup plus puissant par rapport à la sortie habituelle à unité linéaire simple, c'est-à-dire permettant d'exprimer des prédictions multimodales ou d'évaluer sa confiance. Notez cependant que ce dernier peut être naturellement obtenu par d'autres moyens, par exemple en ayant une sortie de variance explicite (log) comme dans les encodeurs automatiques variationnels.
Quoi qu'il en soit, cette approche ne s'adapte pas bien à une sortie plus dimensionnelle, car la taille de la couche de sortie augmente alors de façon exponentielle, ce qui en fait à la fois un problème de calcul et de modélisation.