Estimateurs adaptatifs de densité de noyau?


12

Quelqu'un peut-il rendre compte de son expérience avec un estimateur adaptatif de densité de noyau?
(Il existe de nombreux synonymes: adaptatif | variable | largeur variable, KDE | histogramme | interpolateur ...)

Une estimation de densité de noyau variable dit "nous faisons varier la largeur du noyau dans différentes régions de l'espace d'échantillonnage. Il existe deux méthodes ..." en fait, plus: voisins dans un certain rayon, voisins KNN les plus proches (K généralement fixes), arbres Kd, multigrid ...
Bien sûr, aucune méthode ne peut tout faire, mais les méthodes adaptatives semblent attrayantes.
Voir par exemple la belle image d'un maillage 2d adaptatif dans la méthode des éléments finis .

J'aimerais entendre ce qui a fonctionné / ce qui n'a pas fonctionné pour les données réelles, en particulier> = 100 000 points de données dispersées en 2D ou 3D.

Ajouté le 2 novembre: voici un graphique d'une densité "grumeleuse" (par morceaux x ^ 2 * y ^ 2), une estimation du plus proche voisin, et un KDE gaussien avec le facteur de Scott. Bien qu'un (1) exemple ne prouve rien, il montre que NN peut assez bien s'adapter aux collines pointues (et, en utilisant les arbres KD, est rapide en 2D, 3D ...) texte alternatif


Pouvez-vous donner un peu plus de contexte sur ce que vous entendez par «ce qui fonctionne» ou les objectifs particuliers de votre projet à portée de main. Je les ai utilisés pour visualiser des processus de points spatiaux, mais je doute que c'est ce que vous aviez à l'esprit en posant cette question.
Andy W

Réponses:


7

L'article * DG Terrell; DW Scott (1992). "Estimation de densité de noyau variable". Annals of Statistics 20: 1236–1265. * Cité à la fin de l'article Wikipédia que vous citez vous-même indique clairement qu'à moins que l'espace d'observation ne soit très rare, la méthode du noyau variable n'est pas recommandée sur la base de l'erreur quadratique moyenne globale (les deux locales et globale) pour les variables aléatoires distribuées gaussiennes: (à travers des arguments théoriques) elles citent les chiffres de ( est la taille de l'échantillon) et (à travers les résultats du bootstrap) (n p 4 pn450np4p est le nombre de dimensions) comme paramètres dans lesquels la méthode du noyau variable devient compétitive avec celles à largeur fixe (à en juger par votre question, vous n'êtes pas dans ces paramètres).

L'intuition derrière ces résultats est que si vous n'êtes pas dans des paramètres très clairsemés, alors, la densité locale ne varie tout simplement pas assez pour que le gain en biais surpasse la perte d'efficacité (et donc l'AMISE du noyau à largeur variable augmente par rapport à la AMISE de largeur fixe). De plus, étant donné la grande taille de l'échantillon que vous avez (et les petites dimensions), le noyau à largeur fixe sera déjà très local, diminuant tout gain potentiel en termes de biais.


Merci Kwak. "... pour les variables aléatoires distribuées gaussiennes"; Connaissez-vous des travaux plus récents pour les distributions "grumeleuses"?
denis

@Denis:> 'Clumpy' =? Concentré =? Avec des queues plus étroites que le gaussien?
user603

Je ne suis pas un expert, mais comme "bloc de données" dans l'article de Lang et al., "Insights on fast Kernel Density Estimation algorithms", 2004, 8p
denis

@Denis:> je dirais que cela aggrave le problème (c'est-à-dire que le noyau NN devrait mieux fonctionner sur des données moins grumeleuses). J'ai une explication intuitive mais elle ne rentre pas ici, et vous voudrez peut-être la poser sur le tableau principal en tant que question distincte (liée à celle-ci) pour avoir des opinions supplémentaires.
user603


-1

Loess / lowess est fondamentalement une méthode KDE variable, la largeur du noyau étant définie par l'approche du plus proche voisin. J'ai trouvé que cela fonctionne assez bien, certainement beaucoup mieux que n'importe quel modèle à largeur fixe lorsque la densité des points de données varie considérablement.

Une chose à savoir avec KDE et les données multidimensionnelles est la malédiction de la dimensionnalité. Toutes choses étant égales par ailleurs, il y a beaucoup moins de points dans un rayon défini lorsque p ~ 10 que lorsque p ~ 2. Cela peut ne pas être un problème pour vous si vous ne disposez que de données 3D, mais c'est quelque chose à garder à l'esprit.


3
Loess est une méthode REGRESSION du noyau variable. La question portait sur l'estimation de la densité variable du noyau.
Rob Hyndman

Oups, vous avez raison. J'ai mal lu la question.
Hong Ooi,

@Rob, excusez mes questions naïves: si la variation de la largeur du noyau est (parfois) bonne pour la régression locale / le lissage du noyau, pourquoi est-ce mauvais pour l'estimation de la densité? L'estimation de densité n'est-elle pas un cas d'estimation de f () pour f () == densité ()?
denis

@Hong Ooi, combien de points dans quel Ndim avez-vous utilisé? Merci
Denis

@Denis. Grande question. Pouvez-vous s'il vous plaît l'ajouter comme une question appropriée sur le site et nous verrons quelles réponses les gens peuvent trouver.
Rob Hyndman
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.