Régression du processus gaussien pour les ensembles de données de grande dimension

Je voulais juste voir si quelqu'un avait une expérience de l'application de la régression de processus gaussienne (GPR) à des ensembles de données de grande dimension. J'examine certaines des diverses méthodes GPR clairsemées (par exemple, les pseudo-entrées GPR clairsemées) pour voir ce qui pourrait fonctionner pour les ensembles de données de grande dimension où la sélection des fonctionnalités fait idéalement partie du processus de sélection des paramètres.

Toute suggestion sur les papiers / code / ou diverses méthodes à essayer est certainement appréciée.

Merci.

— tomas
source

Comme indiqué, cette question est assez vague. Les questions autonomes, concrètes et bien motivées reçoivent généralement le plus d'attention et les meilleures réponses. (Par exemple, si vous avez un problème particulier que vous essayez de résoudre, pensez à fournir suffisamment de détails pour que les lecteurs puissent comprendre ce que vous essayez de faire.)

— Cardinal

Les modèles de processus gaussiens sont généralement bien avec des ensembles de données de grande dimension (je les ai utilisés avec des données de microréseaux, etc.). Leur clé est de choisir de bonnes valeurs pour les hyper-paramètres (qui contrôlent efficacement la complexité du modèle d'une manière similaire à la régularisation).

Les méthodes clairsemées et les méthodes de pseudo-entrée concernent davantage les ensembles de données avec un grand nombre d'échantillons (> environ 4000 pour mon ordinateur) plutôt qu'un grand nombre de fonctionnalités. Si vous avez un ordinateur suffisamment puissant pour effectuer une décomposition Cholesky de la matrice de covariance (n par n où n est le nombre d'échantillons), alors vous n'avez probablement pas besoin de ces méthodes.

Si vous êtes un utilisateur de MATLAB, je recommanderais fortement la boîte à outils GPML et le livre de Rasmussen et Williams comme bons points de départ.

CEPENDANT, si vous êtes intéressé par la sélection des fonctionnalités, j'éviterais les GP. L'approche standard de la sélection des fonctionnalités avec les GP consiste à utiliser un noyau de détermination automatique de la pertinence (par exemple, covSEard en GPML), puis à sélectionner les fonctionnalités en ajustant les paramètres du noyau pour maximiser la probabilité marginale. Malheureusement, cela risque de sur-ajuster la probabilité marginale et de se retrouver avec un modèle qui fonctionne (peut-être beaucoup) moins bien qu'un modèle avec une simple covariance de fonction de base radiale sphérique (covSEiso en GPML).

Ma recherche actuelle se concentre sur le sur-ajustement dans la sélection des modèles en ce moment et j'ai constaté que cela pose autant de problème pour la maximisation des preuves dans les GP que pour l'optimisation basée sur la validation croisée des hyper-paranètres dans les modèles du noyau, pour plus de détails. voir cet article et celui-ci .

La sélection des fonctionnalités pour les modèles non linéaires est très délicate. Souvent, vous obtenez de meilleures performances en vous en tenant à un modèle linéaire et en utilisant des approches de type régularisation L1 (Lasso / LARS / Elastic net etc.) pour obtenir des méthodes de parcimonie ou de forêt aléatoire.

— Dikran Marsupial
source

Merci Dikran. J'ai essayé de regarder glmnet dans R pour les modèles linéaires régularisés. Malheureusement, mes prévisions finissent par être les mêmes (je pense que la moyenne de mon ensemble d'entraînement). Les modèles linéaires semblent avoir du mal à extraire le signal de mes données. C'est pourquoi j'ai recherché des modèles non linéaires capables de gérer de nombreuses fonctionnalités / interactions de fonctionnalités potentielles. Je suis sûr que cela demande beaucoup. Des suggestions à ce sujet? Je n'ai pas de problème P >> N. En utilisant 150 fonctionnalités, 1000 exemples.

— tomas

Salut Dikran. C'était une question assez vague que j'ai posée dans mes commentaires désolé. J'ai posé une question plus précise aux conseils. Merci encore pour votre aide. stats.stackexchange.com/questions/30411/…

— tomas

pas de problème, il est souvent plus difficile de déterminer quelles sont les questions que d'y répondre! Je vais chercher les autres questions.

— Dikran Marsupial

Merci pour cette réponse. Dans le cas de caractéristiques dimensionnelles élevées mais d'un ensemble de données moins important (n ~ 10k d ~ 1k), est-il possible d'utiliser ARD pour accélérer le calcul? J'utilise la boîte à outils GPML. Pourrions-nous "sparsifier" automatiquement la matrice de covariance pour nous concentrer sur les caractéristiques pertinentes?

— Emile

le lien " r.csail.mit.edu/papers/v8/cawley07a.html " ne fonctionne pas ... Est-ce celui-ci? jmlr.org/papers/v8/cawley07a.html . Peut-être que l'ajout de citations complètes au lieu de simples liens serait bénéfique :-)

— Curieux

$30$

$100$ $200$

— Alexey Zaytsev
source