Quelle est la meilleure fonction de coût pour former un réseau de neurones à effectuer une régression ordinale , c'est- à- dire pour prédire un résultat dont la valeur existe sur une échelle arbitraire où seul l'ordre relatif entre différentes valeurs est significatif (par exemple: pour prédire quelle taille de produit un client commandera : «petit» (codé 0), «moyen» (codé 1), «grand» (codé 2) ou «extra-large» (codé 3))? J'essaie de comprendre s'il existe de meilleures alternatives que la perte quadratique (modélisation du problème comme une régression `` vanille '') ou la perte d'entropie croisée (modélisation du problème en tant que classification).