Quelle est l'hypothèse multiple dans l'apprentissage semi-supervisé?

20

J'essaie de comprendre ce que signifie l'hypothèse multiple dans l'apprentissage semi-supervisé. Quelqu'un peut-il expliquer de manière simple? Je ne peux pas obtenir l'intuition derrière cela.

Il dit que vos données se trouvent sur un collecteur de faible dimension intégré dans un espace de dimension supérieure. Je n'ai pas compris ce que cela signifie.

— user34790
source

Connexes: youtube.com/watch?v=C2_5QFQZGvM

— Benjamin Crouzier

38

Imaginez que vous avez un tas de graines fixé sur une plaque de verre, qui repose horizontalement sur une table. En raison de la façon dont nous pensons généralement à l'espace, il serait prudent de dire que ces graines vivent dans un espace à deux dimensions, plus ou moins, car chaque graine peut être identifiée par les deux nombres qui donnent les coordonnées de cette graine à la surface de le verre.

Imaginez maintenant que vous prenez la plaque et l'inclinez en diagonale vers le haut, de sorte que la surface du verre ne soit plus horizontale par rapport au sol. Maintenant, si vous souhaitez localiser l'une des graines, vous avez deux options. Si vous décidez d'ignorer le verre, chaque graine semble flotter dans l'espace tridimensionnel au-dessus du tableau, et vous devez donc décrire l'emplacement de chaque graine en utilisant trois nombres, un pour chaque direction spatiale. Mais juste en inclinant le verre, vous n'avez pas changé le fait que les graines vivent toujours sur une surface à deux dimensions. Vous pouvez donc décrire comment la surface du verre se trouve dans un espace tridimensionnel, puis vous pouvez décrire l'emplacement des graines sur le verre en utilisant vos deux dimensions d'origine.

Dans cette expérience de pensée, la surface du verre s'apparente à un collecteur de faible dimension qui existe dans un espace de dimension supérieure: peu importe la façon dont vous faites pivoter la plaque en trois dimensions, les graines vivent toujours le long de la surface d'un plan bidimensionnel.

Exemples

Plus généralement, une variété de faible dimension noyée dans un espace de dimension supérieure n'est qu'un ensemble de points qui, pour une raison quelconque, sont considérés comme connectés ou faisant partie du même ensemble. Notamment, le collecteur peut être déformé d'une manière ou d'une autre dans l'espace de dimension supérieure (par exemple, peut-être que la surface du verre est déformée en forme de bol au lieu d'une forme de plaque), mais le collecteur est toujours fondamentalement de faible dimension. Surtout dans un espace de grande dimension, cette variété pourrait prendre de nombreuses formes et formes différentes, mais comme nous vivons dans un monde en trois dimensions, il est difficile d'imaginer des exemples qui ont plus de trois dimensions. Mais à titre d'exemple, considérez ces exemples:

un morceau de verre (planaire, bidimensionnel) dans l'espace physique (tridimensionnel)
un fil unique (unidimensionnel) dans un morceau de tissu (bidimensionnel)
un morceau de tissu (en deux dimensions) froissé dans la machine à laver (en trois dimensions)

Des exemples courants de variétés dans l'apprentissage automatique (ou au moins des ensembles qui sont supposés vivre le long de variétés de faible dimension) comprennent:

images de scènes naturelles (en général, vous ne voyez pas d'images de bruit blanc, par exemple, ce qui signifie que les images "naturelles" n'occupent pas tout l'espace des configurations de pixels possibles)
sons naturels (argument similaire)
mouvements humains (le corps humain a des centaines de degrés de liberté, mais les mouvements semblent vivre dans un espace qui peut être représenté efficacement en utilisant environ 10 dimensions)

Apprendre la variété

L'hypothèse multiple de l'apprentissage automatique est qu'au lieu de supposer que les données du monde pourraient provenir de toutes les parties de l'espace possible (par exemple, l'espace de toutes les images possibles de 1 mégapixel, y compris le bruit blanc), il est plus logique de supposer que les données d'entraînement proviennent de collecteurs de dimensions relativement faibles (comme la plaque de verre avec les graines). Ensuite, l'apprentissage de la structure du collecteur devient une tâche importante; en outre, cette tâche d'apprentissage semble être possible sans l'utilisation de données de formation étiquetées.

Il existe de très nombreuses façons d'apprendre la structure d'une variété de dimensions réduites. L'une des approches les plus utilisées est l'ACP, qui suppose que le collecteur consiste en une seule "goutte" ellipsoïdale comme une crêpe ou un cigare, intégrée dans un espace de dimension supérieure. Des techniques plus compliquées comme l'isomap, l'ICA ou le codage clairsemé assouplissent certaines de ces hypothèses de diverses manières.

Apprentissage semi-supervisé

La raison pour laquelle l'hypothèse multiple est importante dans l'apprentissage semi-supervisé est double. Pour de nombreuses tâches réalistes (par exemple, déterminer si les pixels d'une image affichent un 4 ou un 5), il y a beaucoup plus de données disponibles dans le monde sans étiquettes (par exemple, des images pouvant contenir des chiffres) qu'avec des étiquettes (par exemple, images explicitement étiquetées "4" ou "5"). De plus, il existe de nombreux ordres de grandeur plus d'informations disponibles dans les pixels des images que dans les étiquettes des images qui ont des étiquettes. Mais, comme je l'ai décrit ci-dessus, les images naturelles ne sont pas réellement échantillonnées à partir de la distribution uniforme sur les configurations de pixels, il semble donc probable qu'il existe une variété qui capture la structure des images naturelles.tandis que les images contenant 5 s se trouvent également sur une variété différente mais proche, nous pouvons essayer de développer des représentations pour chacune de ces variétés en utilisant uniquement les données de pixels, en espérant que les différentes variétés seront représentées en utilisant différentes caractéristiques apprises des données. Ensuite, plus tard, lorsque nous avons quelques bits de données d'étiquette disponibles, nous pouvons utiliser ces bits pour appliquer simplement des étiquettes aux variétés déjà identifiées.

La plupart de cette explication provient du travail dans la littérature d'apprentissage approfondi et fonctionnel. Yoshua Bengio et Yann LeCun - voir le tutoriel d'apprentissage basé sur l'énergie ont des arguments particulièrement accessibles dans ce domaine.

— lmjohns3
source

1

Cela ne répond pas à la question: vous n'expliquez pas pourquoi les collecteurs sont nécessaires, vous expliquez essentiellement pourquoi les incorporations de dimension supérieure ne sont pas nécessaires (un sous-ensemble d'une incorporation de dimension supérieure n'a pas besoin d'être un collecteur pour s'adapter à vos exemples).

— gented

5

Tout d'abord, assurez-vous de comprendre ce qu'est une intégration. Il est emprunté aux mathématiques . En gros, il s'agit d'une cartographie des données dans un autre espace (souvent appelé espace d'intégration ou espace de fonctionnalité ), en préservant une certaine structure ou propriétés des données. Notez que sa dimensionnalité peut être plus grande ou plus petite que l'espace d'entrée. En pratique, la cartographie est complexe et très non linéaire. Quelques exemples:

Un "vecteur de mots" à valeur réelle pour représenter un mot, tel que word2vec
Les activations d'une couche d'un convnet, comme la couche FC7 AlexNet (FC7 est la 7ème couche entièrement connectée)

Pour illustrer, je vais prendre un exemple de cet article de Josh Tenenbaum:

La figure 1 illustre le problème de découverte de caractéristiques avec un exemple de perception visuelle. L'ensemble des vues d'un visage de tous les points de vue possibles est un ensemble de données de dimensions extrêmement élevées lorsqu'il est représenté sous forme de réseaux d'images dans un ordinateur ou sur une rétine; par exemple, des images en niveaux de gris de 32 x 32 pixels peuvent être considérées comme des points dans un espace d'observation de 1 024 dimensions [espace d'entrée] . La structure perceptuellement significative de ces images [espace caractéristique] est cependant de dimensionnalité beaucoup plus faible; toutes les images de la figure 1 reposent sur un collecteur bidimensionnel paramétré par l'angle de vue

Josh Tenenbaum discute ensuite des difficultés d'apprentissage d'un tel mappage de l'entrée à l'espace des fonctionnalités. Mais revenons à la question: nous voulons savoir comment les espaces d'entrée et de fonctionnalité sont liés.

le 32*32 array of grey pixel values est l'espace d'entrée
le [x1=elevation, x2=azimuth] espace est l'espace caractéristique (bien que simpliste, il peut être considéré comme un espace d'intégration valide).

Reprenant l'hypothèse multiple (citant ce grand article ):

L'hypothèse de la variété est que les données naturelles forment des variétés de dimension inférieure dans son espace d'intégration

Avec cet exemple, il est clair que la dimensionnalité de l'espace d'intégration est bien inférieure à l'espace d'entrée: 2 vs 1024. (Cette distinction se maintiendra même pour les choix d'espaces d'intégration de dimension supérieure et moins simplistes).

Pour vous convaincre que l'incorporation forme un collecteur, je vous invite à lire le reste du papier papier Tenenbaum ou l'article Colah .

Remarque: ceci est juste une illustration de ce que signifie l'hypothèse multiple, pas un argument expliquant pourquoi cela se produit .

Connexes: Explication des vecteurs de mots , papier word2vec

— Benjamin Crouzier
source