Tu as demandé:
dans le cas où 𝑛 est 10 de millions, la régression du processus gaussien fonctionne-t-elle toujours?
Pas dans le sens standard de construire et d'inverser une grande matrice. Vous avez deux options: 1) choisir un modèle différent ou 2) faire une approximation.
1) Certains modèles basés sur GP peuvent être mis à l'échelle pour de très grands ensembles de données, comme la machine du comité bayésien liée dans la réponse ci-dessus. Je trouve cette approche plutôt insatisfaisante: il y a de bonnes raisons de choisir un modèle GP et si nous devons passer à un modèle plus calculable, nous ne conserverons peut-être pas les propriétés du modèle d'origine. Par exemple, les variances prédictives du BCM dépendent fortement de la répartition des données.
2) L'approche «classique» de l'approximation dans les GP consiste à approximer la matrice du noyau. Il y a une bonne revue de ces sortes de méthodes ici: http://www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf . En fait, nous pouvons généralement voir ces approximations matricielles comme des approximations du modèle et les regrouper avec la machine du comité bayésien: ce sont des modifications du modèle et il peut être difficile de comprendre quand ces changements peuvent être pathologiques. Voici une super revue: https://papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf
La façon dont je préconise de faire des approximations pour les grands généralistes est d'éviter d'approximer la matrice du noyau ou le modèle, et d'approximer la distribution postérieure en utilisant l'inférence variationnelle. Beaucoup de calculs ressemblent à une approximation matricielle de «bas rang», mais il y a une propriété très souhaitable: plus vous utilisez de calcul (plus de «rangs»), plus l'approximation est proche de la vraie postérieure, telle que mesurée par le KL divergence.
Ces articles sont un bon point de départ: http://proceedings.mlr.press/v5/titsias09a/titsias09a.pdf
https://arxiv.org/pdf/1309.6835
J'ai écrit un article plus long sur le même argument ici: https://www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model
Dans la pratique, l'approximation variationnelle fonctionne très bien dans de nombreux cas. Je l'ai beaucoup utilisé dans de vraies applications. Et plus récemment, il y a eu une excellente théorie pour justifier pourquoi cela devrait fonctionner ( https://arxiv.org/abs/1903.03571 ).
Un dernier bouchon: l'inférence variationnelle dans les GP est implémentée dans gpflow ( https://github.com/GPflow/GPflow )