3 ans après, je réponds à ma propre question.
Pour moi, la principale différence réside dans ce qui est la sortie des modèles dans les différents problèmes. Dans la régression ordinale, la tâche consiste à prédire une étiquette pour un échantillon donné, d'où la sortie d'une prédiction est une étiquette (comme c'est le cas par exemple dans la classification multiclasse). En revanche, dans le problème de l'apprentissage du classement, la sortie est un ordre d'une séquence d'échantillons. En d'autres termes, la sortie d'un modèle de classement peut être considérée comme une permutation qui permet aux échantillons d'avoir des étiquettes aussi ordonnées que possible. Par conséquent, contrairement au modèle de régression ordinale, l'algorithme de classement n'est pas en mesure de prédire une étiquette de classe. Pour cette raison, l'entrée d'un modèle de classement n'a pas besoin de spécifier d'étiquettes de classe, mais seulement un ordre partiel entre les échantillons (voir par exemple [0] pour une application de ceci). En ce sens, le classement est un problème plus facile que la régression ordinale:
Ceci est mieux expliqué avec un exemple. Supposons que nous ayons les paires suivantes (échantillon, étiquette):{ (X1, 1 ) , (X2, 2 ) , (X3, 2 ) }. Compte tenu de cette entrée, un modèle de classement prédira un ordre de cette séquence d'échantillons. Par exemple, pour un algorithme de classement, les permutations( 1 , 2 , 3 ) → ( 1 , 2 , 3 ) et ( 1 , 2 , 3 ) → ( 1 , 3 , 2 ) sont des prédictions avec un score parfait puisque les étiquettes des deux séquences { (X1, 1 ) , (X2, 2 ) , (X3, 2 ) } et { (X1, 1 ) , (X3, 2 ) , (X2, 2 ) }sont commandés. D'un autre côté, une régression ordinale prédirait une étiquette pour chacun des échantillons, et dans ce cas la prédiction (1, 2, 2) donnerait un score parfait, mais pas (1, 2, 3) ou (1, 3, 2).
[0] Optimisation des moteurs de recherche à l'aide des données de clics Thorsten Joachims