Les données doivent-elles être centrées + mises à l'échelle avant d'appliquer t-SNE?


18

Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites.

Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes?

J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne par défaut.

Réponses:


18

Le centrage ne devrait pas avoir d'importance puisque l'algorithme ne fonctionne que sur les distances entre les points, mais la mise à l'échelle est nécessaire si vous voulez que les différentes dimensions soient traitées avec une importance égale, car la norme 2 sera plus fortement influencée par les dimensions avec une grande variance.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.