J'ai étudié des méthodes d'apprentissage semi-supervisées et j'ai découvert le concept de "pseudo-étiquetage".
Si je comprends bien, avec le pseudo-étiquetage, vous avez un ensemble de données étiquetées ainsi qu'un ensemble de données non étiquetées. Vous entraînez d'abord un modèle uniquement sur les données étiquetées. Vous utilisez ensuite ces données initiales pour classer (attacher des étiquettes provisoires) les données non étiquetées. Vous réinjectez ensuite à la fois les données étiquetées et non étiquetées dans votre formation de modèle, (ré) ajustant à la fois les étiquettes connues et les étiquettes prédites. (Répétez ce processus, réétiquetant avec le modèle mis à jour.)
Les avantages revendiqués sont que vous pouvez utiliser les informations sur la structure des données non étiquetées pour améliorer le modèle. Une variation de la figure suivante est souvent montrée, "démontrant" que le processus peut rendre une limite de décision plus complexe en fonction de l'endroit où se trouvent les données (sans étiquette).
Image de Wikimedia Commons par Techerin CC BY-SA 3.0
Cependant, je n'achète pas tout à fait cette explication simpliste. Naïvement, si le résultat de la formation étiquetée uniquement d'origine était la limite de décision supérieure, les pseudo-étiquettes seraient attribuées en fonction de cette limite de décision. Ce qui revient à dire que la main gauche de la courbe supérieure serait pseudo-étiquetée blanche et la main droite de la courbe inférieure serait pseudo-étiquetée noire. Vous n'obtiendrez pas la belle frontière de décision incurvée après le recyclage, car les nouvelles pseudo-étiquettes renforceraient simplement la frontière de décision actuelle.
Ou pour le dire autrement, la limite de décision actuelle uniquement étiquetée aurait une précision de prédiction parfaite pour les données non étiquetées (comme c'est ce que nous avons utilisé pour les faire). Il n'y a pas de force motrice (pas de gradient) qui nous amènerait à changer l'emplacement de cette limite de décision simplement en ajoutant les données pseudo-étiquetées.
Ai-je raison de penser que l'explication incarnée par le diagramme fait défaut? Ou y a-t-il quelque chose qui me manque? Sinon, quel est l'avantage des pseudo-étiquettes, étant donné que la frontière de décision de pré-recyclage a une précision parfaite sur les pseudo-étiquettes?