Bande passante du noyau dans l'estimation de la densité du noyau


10

Je fais une estimation de la densité du noyau, avec un ensemble de points pondérés (c'est-à-dire que chaque échantillon a un poids qui n'est pas nécessaire), en N dimensions. De plus, ces échantillons sont juste dans un espace métrique (c'est-à-dire que nous pouvons définir une distance entre eux) mais rien d'autre. Par exemple, nous ne pouvons pas déterminer la moyenne des points d'échantillonnage, ni l'écart type, ni mettre à l'échelle une variable par rapport à une autre. Le noyau est juste affecté par cette distance et le poids de chaque échantillon:

F(X)=1.wejeghtsjewejeghtjehKernel(jestunence(X,Xje)h)

Dans ce contexte, j'essaie de trouver une estimation robuste de la bande passante du noyau , pouvant varier spatialement, et de préférence qui donne une reconstruction exacte sur l'ensemble de données d'apprentissage . Si nécessaire, nous pourrions supposer que la fonction est relativement lisse.hXje

J'ai essayé d'utiliser la distance jusqu'au premier ou au deuxième voisin le plus proche, mais cela donne de très mauvais résultats. J'ai essayé avec l'optimisation sans interruption, mais j'ai du mal à trouver une bonne mesure à optimiser dans ce contexte dans Nd, donc il trouve de très mauvaises estimations, en particulier pour les échantillons d'apprentissage eux-mêmes. Je ne peux pas utiliser l'estimation gourmande basée sur l'hypothèse normale car je ne peux pas calculer l'écart type. J'ai trouvé des références en utilisant des matrices de covariance pour obtenir des noyaux anisotropes, mais encore une fois, cela ne tiendrait pas dans cet espace ...

Quelqu'un a une idée ou une référence?


Si vous pouvez mesurer la distance, vous pouvez mesurer une moyenne. Est-ce correct? Je pourrais dire "j'utilise la distance en cosinus pour les mots" donc un "mot méchant n'a pas vraiment beaucoup de sens", mais je ne vois pas pourquoi il n'a pas encore pu être calculé. Vous pourriez dire que vous êtes dans un espace ordinal, donc la moyenne n'est pas continuellement valorisée. Pourquoi la moyenne est-elle indéfinissable?
EngrStudent

Réponses:


3

Un point de départ serait l' estimateur du plus proche voisin de Silverman , mais pour ajouter les poids d'une manière ou d'une autre. (Je ne sais pas exactement à quoi correspondent vos poids ici.) La méthode du plus proche voisin peut évidemment être formulée en termes de distances. Je crois que votre première et deuxième méthode du plus proche voisin sont des versions de la méthode du plus proche voisin, mais sans fonction de noyau, et avec une petite valeur de .k


2

Sur Matlab File Exchange, il existe une fonction kde qui fournit la bande passante optimale avec l'hypothèse qu'un noyau gaussien est utilisé: Kernel Density Estimator .

Même si vous n'utilisez pas Matlab, vous pouvez analyser ce code pour sa méthode de calcul de la bande passante optimale. Il s'agit d'une fonction très appréciée sur l'échange de fichiers et je l'ai utilisée plusieurs fois.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.