Même si toutes les images du jeu de données MNIST sont centrées, avec une échelle similaire et face visible sans rotations, elles présentent une variation importante de l'écriture manuscrite qui me laisse perplexe sur la précision avec laquelle un modèle linéaire atteint une précision de classification aussi élevée.
Dans la mesure où je suis en mesure de visualiser, compte tenu de la variation importante de l'écriture manuscrite, les chiffres doivent être linéairement indissociables dans un espace à 784 dimensions, c'est-à-dire qu'il doit exister une petite limite non linéaire complexe (mais pas très complexe) séparant les différents chiffres. , semblable à l'exemple bien cité de où les classes positives et négatives ne peuvent être séparées par aucun classifieur linéaire. Il me semble déconcertant que la régression logistique multi-classes produise une telle précision avec des caractéristiques entièrement linéaires (aucune caractéristique polynomiale).
À titre d'exemple, étant donné n'importe quel pixel de l'image, différentes variations manuscrites des chiffres et peuvent éclairer ou non ce pixel. Par conséquent, avec un ensemble de poids appris, chaque pixel peut donner à un chiffre l’apparence d’un ou d’un . Seule une combinaison de valeurs de pixels doit permettre de dire si un chiffre est un ou un . Cela est vrai pour la plupart des paires de chiffres. Alors, comment la régression logistique, qui base aveuglément sa décision indépendamment sur toutes les valeurs de pixels (sans aucune dépendance entre pixels), est-elle capable d’atteindre une telle précision?
Je sais que je me trompe quelque part ou que je surestime quelque peu la variation des images. Cependant, ce serait formidable si quelqu'un pouvait m'aider avec une intuition sur la façon dont les chiffres sont «presque» séparables linéairement.