Quelle est la différence entre une régression linéaire avec une fonction de base radiale gaussienne (RBF) et une régression linéaire avec un noyau gaussien?
Quelle est la différence entre une régression linéaire avec une fonction de base radiale gaussienne (RBF) et une régression linéaire avec un noyau gaussien?
Réponses:
La seule vraie différence réside dans la régularisation qui est appliquée. Un réseau RBF régularisé utilise généralement une pénalité basée sur la norme quadratique des poids. Pour la version du noyau, la pénalité est généralement sur la norme quadratique des poids du modèle linéaire implicitement construit dans l'espace caractéristique induit par le noyau. La principale différence pratique que cela fait est que la pénalité pour le réseau RBF dépend des centres du réseau RBF (et donc de l'échantillon de données utilisé) tandis que pour le noyau RBF, l'espace des caractéristiques induites est le même quel que soit l'échantillon de données, donc la pénalité est une pénalité sur la fonction du modèle, plutôt que sur son paramétrage .
En d'autres termes, pour les deux modèles, nous avons
Pour l'approche du réseau RBF, le critère de formation est
Pour la méthode du noyau RBF, nous avons que et . Cela signifie qu'une pénalité de norme quadratique sur les poids du modèle dans l'espace d'entité induit, peut être écrite en termes de paramètres doubles, comme
où est le mélange d'évaluations par paire du noyau pour tous les modèles d'apprentissage. Le critère de formation est alors
.
La seule différence entre les deux modèles est la dans le terme de régularisation.
Le principal avantage théorique de l'approche du noyau est qu'elle vous permet d'interpréter un modèle non linéaire comme un modèle linéaire suivant une transformation non linéaire fixe qui ne dépend pas de l'échantillon de données. Ainsi, toute théorie d'apprentissage statistique qui existe pour les modèles linéaires est automatiquement transférée vers la version non linéaire. Cependant, tout cela tombe en panne dès que vous essayez d'ajuster les paramètres du noyau, à quel point nous sommes à peu près au même point théoriquement parlant que nous l'étions avec les réseaux de neurones RBF (et MLP). L'avantage théorique n'est donc peut-être pas aussi important que nous le souhaiterions.
Est-il susceptible de faire une réelle différence en termes de performances? Probablement pas beaucoup. Les théorèmes "pas de déjeuner gratuit" suggèrent qu'il n'y a pas de supériorité a priori d'aucun algorithme sur tous les autres, et la différence de régularisation est assez subtile, donc en cas de doute, essayez les deux et choisissez le meilleur selon, par exemple, la validation croisée.