Je comprends d'après l'article de Hinton que le T-SNE fait un bon travail en gardant les similitudes locales et un travail décent en préservant la structure mondiale (clusterisation).
Cependant, je ne sais pas si les points apparaissant plus proches dans une visualisation 2D t-sne peuvent être supposés comme des points de données "plus similaires". J'utilise des données avec 25 fonctionnalités.
À titre d'exemple, en observant l'image ci-dessous, puis-je supposer que les points de données bleus sont plus similaires aux points verts, en particulier au plus grand cluster de points verts ?. Ou, en posant une autre question, est-il acceptable de supposer que les points bleus sont plus similaires au vert dans le cluster le plus proche, qu'aux rouges dans l'autre cluster? (sans tenir compte des points verts dans le cluster rouge-ish)
En observant d'autres exemples, tels que ceux présentés dans sci-kit learn Manifold learning, il semble juste de supposer cela, mais je ne sais pas si c'est correct statistiquement parlant.
ÉDITER
J'ai calculé manuellement les distances par rapport à l'ensemble de données d'origine (la distance euclidienne moyenne par paire) et la visualisation représente en fait une distance spatiale proportionnelle par rapport à l'ensemble de données. Cependant, je voudrais savoir si cela est assez acceptable à attendre de la formulation mathématique originale de t-sne et non pas par simple coïncidence.