J'utilise le processus gaussien (GP) pour la régression.
Dans mon problème, il est assez courant que deux ou plusieurs points de données soient proches l'un de l'autre, relativement aux échelles de longueur du problème. De plus, les observations peuvent être extrêmement bruyantes. Pour accélérer les calculs et améliorer la précision des mesures , il semble naturel de fusionner / intégrer des grappes de points proches les uns des autres, tant que je me soucie des prédictions sur une plus grande échelle de longueur.
Je me demande quelle est la façon rapide mais semi-raisonnée de faire cela.
Si deux points de données se chevauchaient parfaitement, , et le bruit d'observation (c'est-à-dire la probabilité) est gaussien, peut-être hétéroskédastique mais connu , la façon naturelle de procéder semble les fusionner en un seul point de données avec:
, pourk=1,2.
Valeur observée qui est une moyenne des valeurs observées y ( 1 ) , y ( 2 ) pondérées par leur précision relative: ˉ y = σ 2 y ( → x ( 2 ) ).
Bruit associé à l'observation égal à: .
Cependant, comment fusionner deux points proches mais ne se chevauchant pas ?
Je pense que devrait toujours être une moyenne pondérée des deux positions, encore une fois en utilisant la fiabilité relative. La justification est un argument de centre de masse (c.-à-d., Pensez à une observation très précise comme une pile d'observations moins précises).
Pour même formule que ci-dessus.
Pour le bruit associé à l'observation, je me demande si en plus de la formule ci-dessus je dois ajouter un terme de correction au bruit car je déplace le point de données. Essentiellement, j'obtiendrais une augmentation de l'incertitude liée à et ℓ 2 (respectivement, la variance du signal et l'échelle de longueur de la fonction de covariance). Je ne suis pas sûr de la forme de ce terme, mais j'ai quelques idées provisoires sur la façon de le calculer étant donné la fonction de covariance.
Avant de continuer, je me demandais s'il y avait déjà quelque chose là-bas; et si cela semble être une façon raisonnable de procéder, ou s'il existe de meilleures méthodes rapides .
La chose la plus proche que j'ai pu trouver dans la littérature est cet article: E. Snelson et Z. Ghahramani, Sparse Gaussian Processes using Pseudo-inputs , NIPS '05; mais leur méthode est (relativement) impliquée, nécessitant une optimisation pour trouver les pseudo-entrées.