Si les largeurs variables du noyau sont souvent bonnes pour la régression du noyau, pourquoi ne sont-elles généralement pas bonnes pour l'estimation de la densité du noyau?

Cette question est motivée par une discussion ailleurs .

Les noyaux variables sont souvent utilisés dans la régression locale. Par exemple, le loess est largement utilisé et fonctionne bien comme un régulateur de régression, et est basé sur un noyau de largeur variable qui s'adapte à la rareté des données.

D'un autre côté, on pense généralement que les noyaux variables conduisent à de mauvais estimateurs dans l'estimation de la densité du noyau (voir Terrell et Scott, 1992 ).

Y a-t-il une raison intuitive pour laquelle ils fonctionneraient bien pour la régression mais pas pour l'estimation de la densité?

— Rob Hyndman
source

Vous avez écrit "D'un autre côté, les noyaux variables sont généralement considérés comme conduisant à de mauvais estimateurs dans l'estimation de la densité du noyau", quelle est la partie de l'article que vous mentionnez qui vous fait croire cela? J'ai beaucoup de références qui vont dans l'autre dérivation, voir par exemple les références mentionnées dans cet article: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— robin girard

L'abrégé de Terrell et Scott le résume bien: "Les estimateurs du plus proche voisin dans toutes les versions fonctionnent mal en une et deux dimensions". Ils semblent seulement trouver beaucoup d'avantages dans l'estimation de la densité multivariée.

— Rob Hyndman

"Le plus proche voisin" n'est pas le seul noyau variable. Les articles que je mentionne utilisent un autre outil tel que l'algorithme de Lepskii. Je vais lire l'article AOS mais comme les performances du plus proche voisin devraient diminuer avec la dimension, j'ai trouvé étrange que l'augmentation de la dimension donne des avantages à un estimateur "très non paramétrique" (si nous admettons qu'une bande passante constante est moins non paramétrique que bande passante variable). Dans ce type de situation, le cas d'évaluation qui est utilisée déterminent souvent les résultats ...

— robin GIRARD

@Robin Girard:> * a trouvé étrange que l'augmentation de la dimension donne des avantages à un estimateur "très non paramétrique" (si nous admettons qu'une bande passante constante est plus non paramétrique qu'une bande passante variable) * y a-t-il une faute de frappe dans cette phrase? Sinon, vous sembleriez être d'accord avec les auteurs, au moins sur un plan intuitif. Merci de confirmer / corriger.

— user603

@kwak merci de le remarquer! c'est une faute de frappe: je voulais dire que la bande passante constante est moins NP ... Je ne peux pas modifier mon commentaire :( désolé.

— robin girard

Réponses:

Il semble y avoir deux questions différentes ici, que je vais essayer de diviser:

1) en quoi KS, lissage du noyau, différent de KDE, estimation de la densité du noyau? Eh bien, disons que j'ai un estimateur / plus lisse / interpolateur

est( xi, fi -> gridj, estj )

et il arrive aussi de connaître la "vraie" densité f () au xi. L'exécution est( x, densityf ) doit alors donner une estimation de la densité f (): un KDE. Il se pourrait bien que les KS et les KDE soient évalués différemment - différents critères de lissage, différentes normes - mais je ne vois pas de différence fondamentale. Qu'est-ce que je rate ?

2) Comment la dimension affecte- t-elle intuitivement l' estimation ou le lissage ? Voici un exemple de jouet, juste pour aider l'intuition. Considérons une boîte de N = 10000 points dans une grille uniforme et une fenêtre, une ligne ou un carré ou un cube, de W = 64 points à l'intérieur:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Ici, le «rapport latéral» est le côté fenêtre / côté boîte, et «dist to win» est une estimation approximative de la distance moyenne d'un point aléatoire dans la boîte à une fenêtre placée au hasard.

Est-ce que cela a un sens? (Une image ou une applet aiderait vraiment: n'importe qui?)

L'idée est qu'une fenêtre de taille fixe dans une boîte de taille fixe a une proximité très différente du reste de la boîte, en 1d 2d 3d 4d. C'est pour une grille uniforme; peut-être que la forte dépendance à l'égard de la dimension se répercute sur d'autres distributions, peut-être pas. Quoi qu'il en soit, cela ressemble à un fort effet général, un aspect de la malédiction de la dimensionnalité.

— denis
source

L'estimation de la densité du noyau signifie l' intégration sur une fenêtre locale (floue), et le lissage du noyau signifie la moyenne sur une fenêtre locale (floue).

$\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$

$\rho(x) \propto \sum K(||x-x_i||)$

Comment sont-ils les mêmes?

Considérons des échantillons d'une fonction à valeur booléenne, c'est-à-dire un ensemble contenant à la fois des "vrais échantillons" (chacun avec une valeur unitaire) et des "faux échantillons" (chacun avec une valeur nulle). En supposant que la densité globale de l'échantillon est constante (comme une grille), la moyenne locale de cette fonction est identiquement proportionnelle à la densité locale (partielle) du sous-ensemble à valeur réelle. (Les faux échantillons nous permettent d'ignorer constamment le dénominateur de l'équation de lissage, tout en ajoutant zéro terme à la sommation, de sorte qu'il se simplifie dans l'équation d'estimation de la densité.)

De même, si vos échantillons étaient représentés comme des éléments clairsemés sur un raster booléen, vous pouvez estimer leur densité en appliquant un filtre de flou au raster.

En quoi sont-ils différents?

Intuitivement, vous pouvez vous attendre à ce que le choix de l'algorithme de lissage dépende du fait que les mesures de l'échantillon contiennent ou non une erreur de mesure significative.

À un extrême (pas de bruit), il vous suffit d'interpoler entre les valeurs exactement connues aux emplacements des échantillons. Disons, par triangulation de Delaunay (avec interpolation bilinéaire par morceaux).

L'estimation de la densité ressemble à l'extrême opposé, elle est entièrement sonore, car l'échantillon isolé n'est pas accompagné d'une mesure de la valeur de densité à ce point. (Il n'y a donc rien à interpoler simplement. Vous pourriez envisager de mesurer les zones de cellules du diagramme de Voronoï, mais le lissage / débruitage sera toujours important ..)

Le fait est que, malgré la similitude, il s'agit de problèmes fondamentalement différents, de sorte que différentes approches peuvent être optimales.

— benjimin
source