Les points de rapprochement peuvent-ils être considérés comme plus similaires dans la visualisation T-SNE?

Je comprends d'après l'article de Hinton que le T-SNE fait un bon travail en gardant les similitudes locales et un travail décent en préservant la structure mondiale (clusterisation).

Cependant, je ne sais pas si les points apparaissant plus proches dans une visualisation 2D t-sne peuvent être supposés comme des points de données "plus similaires". J'utilise des données avec 25 fonctionnalités.

À titre d'exemple, en observant l'image ci-dessous, puis-je supposer que les points de données bleus sont plus similaires aux points verts, en particulier au plus grand cluster de points verts ?. Ou, en posant une autre question, est-il acceptable de supposer que les points bleus sont plus similaires au vert dans le cluster le plus proche, qu'aux rouges dans l'autre cluster? (sans tenir compte des points verts dans le cluster rouge-ish)

En observant d'autres exemples, tels que ceux présentés dans sci-kit learn Manifold learning, il semble juste de supposer cela, mais je ne sais pas si c'est correct statistiquement parlant.

ÉDITER

J'ai calculé manuellement les distances par rapport à l'ensemble de données d'origine (la distance euclidienne moyenne par paire) et la visualisation représente en fait une distance spatiale proportionnelle par rapport à l'ensemble de données. Cependant, je voudrais savoir si cela est assez acceptable à attendre de la formulation mathématique originale de t-sne et non pas par simple coïncidence.

— Javierfdr
source

Les points bleus sont les plus proches de leurs points verts voisins respectifs, c'est ainsi que l'incorporation a été effectuée. En gros, les similitudes (ou la distance) doivent être préservées. Passer de 25 dimensions à seulement 2 entraîne très probablement une perte d'informations, mais la représentation 2D est la plus proche qui peut être affichée à l'écran.

— Vladislavs Dovgalecs

Je présenterais t-SNE comme une adaptation probabiliste intelligente de l'incorporation localement linéaire. Dans les deux cas, nous essayons de projeter des points d'un espace de grande dimension vers un petit. Cette projection se fait en optimisant la conservation des distances locales (directement avec LLE, en préproduisant une distribution probabiliste et en optimisant la KL-divergence avec t-SNE). Ensuite, si votre question est, maintient-elle les distances mondiales, la réponse est non. Cela dépendra de la "forme" de vos données (si la distribution est régulière, les distances doivent être conservées d'une manière ou d'une autre).

t-SNE ne fonctionne pas bien sur le rouleau suisse (votre image 3D "S") et vous pouvez voir que, dans le résultat 2D, les points jaunes très centraux sont généralement plus proches des rouges que des bleus (ils sont parfaitement centrés dans l'image 3D).

Un autre bon exemple de ce que fait t-SNE est le regroupement des chiffres manuscrits. Voir les exemples sur ce lien: https://lvdmaaten.github.io/tsne/

— Robin
source

Ce que je veux dire, c'est que vous ne pouvez pas simplement utiliser la distance dans l'espace inférieur comme critère de similitude. t-SNE gardera la structure globale telle que les clusters mais ne garde pas nécessairement les distances. Cela dépendra de la forme des données de grande dimension et de la perplexité que vous utilisez.

— Robin

OK je vois. Merci de clarifier. Oui, je suis d'accord que les distances dans un espace inférieur ne seraient pas précises. Maintenant, puisque t-sne est pratique pour la visualisation, puis-je utiliser conceptuellement les distances dans le tracé de dimension inférieure? Par exemple, dans mon intrigue, je peux dire avec certitude que les points bleus sont plus proches ou plus similaires aux verts qu'aux rouges, étant donné la séparation évidente des trois groupes dans l'espace 2D. Ou ce serait aussi difficile à dire?

— Javierfdr

C'est assez difficile à dire. Les points dans l'espace de faible dimension sont initialisés avec une distribution gaussienne centrée sur l'origine. Ils sont ensuite remplacés de manière itérative en optimisant la divergence KL. Je dirais donc que dans votre cas, les points bleus sont plus similaires au cluster vert, mais il est maintenant possible d'évaluer à quel point ils sont plus proches que le cluster rouge. t-SNE.

— Robin

Dans l'ensemble, t-SNE met l'accent sur (1) la modélisation de points de données différents au moyen de grandes distances par paires et (2) la modélisation de points de données similaires au moyen de petites distances par paires. Plus précisément, le t-SNE introduit des forces à longue portée dans la carte à faible dimension qui peuvent rapprocher deux (groupes de) points similaires qui se séparent au début de l'optimisation.

— Robin

Très belle explication. Merci beaucoup pour ton effort. Je pense que vous, différents commentaires, avez élaboré une réponse complète.

— Javierfdr