J'ai quelques données qui existent sur un graphique . Les sommets appartiennent à l'une des deux classes , et je suis intéressé à former un SVM pour distinguer les deux classes. Un noyau approprié pour cela est le noyau de diffusion , où est le laplacien de et est un paramètre de réglage.K = exp ( - β L ) , L G β
Le réglage du SVM nécessite une sélection d'hyperparamètres, je dois donc réglerClassiquement, nous utilisons la validation croisée pour ce problème, mais cela ne semble pas approprié ici, car l'omission d'un sommet de modifie le graphique entier, augmentant peut-être même le nombre de composants connectés! Si le nombre de composants connectés change, certains sommets deviennent inaccessibles aux autres, et nous sommes confrontés à un ensemble de données très différent de ce que nous avions commencé. Autrement dit, non seulement nous manquons le sommet supprimé , mais nous manquons également des informations sur tous les autres sommets dans le graphique qui étaient adjacents à ce sommet.i G i j
La notion de base de la validation croisée est que nous aimerions approximer comment le modèle se comportera lorsqu'il sera présenté avec de nouvelles données. Dans les problèmes standard, l'omission de certaines de vos données pour les tests ne change pas les valeurs des données d'entraînement restantes. Cependant, dans le cas des données de graphique, il n'est pas clair ce que signifie pour le modèle de voir de "nouvelles" données dans le réglage CV. L'omission de sommets ou d'arêtes peut modifier complètement les données. Par exemple, imaginez un graphe qui est un graphe à k , dans lequel un sommet a k arêtes à k sommets, et tous les autres sommets ont 1 arête. Omettre le sommet central pour construire les données d'apprentissage S ∗déconnectera entièrement le graphique et la matrice du noyau sera diagonale! Mais bien sûr, il sera possible de former un modèle sur ces données de formation fournies dans . Ce qui est moins clair, c'est ce que cela signifie de tester ensuite les performances hors échantillon du modèle résultant. Recalcule-t-on la matrice du noyau pour S et fournit-elle cela pour faire des prédictions?
Ou, alternativement, commence-t-on par calculer la matrice du noyau de dans son intégralité et omettre les lignes et les colonnes nécessaires pour produire la matrice du noyau utilisée pour estimer la SVM? Cela présente ses propres problèmes conceptuels, car l'inclusion du nœud central dans S signifie que chaque sommet est accessible à partir de tous les autres sommets, et la matrice du noyau est dense. Cette inclusion signifiera-t-elle une fuite d'informations entre les plis et biaisera-t-elle la sortie de la validation croisée? D'une part, les données sur les nœuds centraux omis sont toujours présentes, car le nœud central omis rend le graphe connecté. Par contre, on ne sait rien des labels y des nœuds omis, nous pouvons donc être à l'aise d'obtenir de cette manière des estimations hors échantillon raisonnablement impartiales.
Comment sélectionner les hyperparamètres pour des problèmes de ce type? Le CV est-il imparfait mais acceptable, ou avons-nous besoin de méthodes spécialisées? Le réglage hyperparamétrique est-il même possible dans mon contexte?