Pouvez-vous expliquer l'estimation de la densité de la fenêtre de Parzen (noyau) en termes simples?

24

L'estimation de la densité de fenêtre de Parzen est décrite comme

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

où est le nombre d'éléments dans le vecteur, est un vecteur, est une densité de probabilité de , est la dimension de la fenêtre de Parzen et est une fonction de fenêtre. $n$ $x$ $p(x)$ $x$ $h$ $\phi$

Mes questions sont:

Quelle est la différence fondamentale entre une fonction de fenêtre Parzen et d'autres fonctions de densité comme la fonction gaussienne, etc.?
Quel est le rôle de la fonction de fenêtre ( ) dans la recherche de la densité de ? $\phi$ $x$
Pourquoi pouvons-nous brancher d'autres fonctions de densité à la place de la fonction Window?
Quel est le rôle de dans la recherche de la densité de ? $h$ $x$

— user366312
source

44

L'estimation de densité de fenêtre de Parzen est un autre nom pour l' estimation de densité de noyau . Il s'agit d'une méthode non paramétrique pour estimer la fonction de densité continue à partir des données.

Imaginez que vous avez des points de données $x_1,\dots,x_n$ qui proviennent d'une distribution commune inconnue, vraisemblablement continue $f$ . Vous souhaitez estimer la distribution compte tenu de vos données. Une chose que vous pourriez faire est simplement de regarder la distribution empirique et de la traiter comme un échantillon équivalent de la vraie distribution. Cependant, si vos données sont continues, vous verrez probablement chaque $x_i$ point n'apparaissent qu'une seule fois dans l'ensemble de données, donc sur la base de cela, vous concluriez que vos données proviennent d'une distribution uniforme puisque chacune des valeurs a une probabilité égale. J'espère que vous pouvez faire mieux que cela: vous pouvez regrouper vos données dans un certain nombre d'intervalles également espacés et compter les valeurs qui tombent dans chaque intervalle. Cette méthode serait basée sur l'estimation de l' histogramme . Malheureusement, avec l'histogramme, vous vous retrouvez avec un certain nombre de casiers, plutôt qu'avec une distribution continue, ce n'est donc qu'une approximation approximative.

L'estimation de la densité du noyau est la troisième alternative. L'idée principale est que vous approximez $f$ par un mélange de distributions continues $K$ (en utilisant votre notation $\phi$ ), appelées noyaux , qui sont centrées sur $x_i$ points de données et ont une échelle ( bande passante ) égale à $h$ :

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

Ceci est illustré sur l'image ci-dessous, où la distribution normale est utilisée comme noyau $K$ et différentes valeurs pour la bande passante $h$ sont utilisées pour estimer la distribution compte tenu des sept points de données (marqués par les lignes colorées en haut des tracés). Les densités colorées sur les parcelles sont des noyaux centrés en $x_i$ points. Notez que $h$ est un paramètre relatif , sa valeur est toujours choisie en fonction de vos données et la même valeur de $h$ peut ne pas donner des résultats similaires pour différents ensembles de données.

Kernel $K$ peut être pensé comme une fonction de densité de probabilité, et il doit s'intégrer à l'unité. Il doit également être symétrique pour que $K(x) = K(-x)$ et, ce qui suit, centré à zéro. Article Wikipédia sur les noyaux répertorie de nombreux noyaux populaires, comme le gaussien (distribution normale), Epanechnikov, rectangulaire (distribution uniforme), etc. Fondamentalement, toute distribution répondant à ces exigences peut être utilisée comme noyau.

Évidemment, l'estimation finale dépendra de votre choix de noyau (mais pas tant que ça) et du paramètre de bande passante $h$ . Le fil suivant Comment interpréter la valeur de la bande passante dans une estimation de densité de noyau?décrit l'utilisation des paramètres de bande passante plus en détail.

En disant cela en anglais simple, ce que vous supposez ici, c'est que les points observés $x_i$ sont qu'un échantillon et suivent une distribution $f$ à estimer. Puisque la distribution est continue, nous supposons qu'il existe une densité inconnue mais non nulle autour du voisinage proche de $x_i$ points (le voisinage est défini par le paramètre $h$ ) et nous utilisons les noyaux $K$ pour en tenir compte. Plus il y a de points dans un quartier, plus la densité s'accumule autour de cette région et donc, plus la densité globale de $\hat{f_h}$ élevée . La fonction résultante $\hat{f_h}$ peut maintenant être évaluée pour tout point $x$ .(sans indice) pour obtenir une estimation de densité pour cela, voici comment nous avons obtenu la fonction $\hat{f_h}(x)$ qui est une approximation de la fonction de densité inconnue $f(x)$

La bonne chose à propos des densités de noyau est que, pas comme les histogrammes, ce sont des fonctions continues et qu'elles sont elles-mêmes des densités de probabilité valides car elles sont un mélange de densités de probabilité valides. Dans de nombreux cas, c'est aussi proche que possible de l'approximation de $f$ .

La différence entre la densité du noyau et d'autres densités, en tant que distribution normale, est que les densités "habituelles" sont des fonctions mathématiques, tandis que la densité du noyau est une approximation de la densité réelle estimée à l'aide de vos données, donc ce ne sont pas des distributions "autonomes".

Je vous recommanderais les deux beaux livres d'introduction à ce sujet de Silverman (1986) et Wand et Jones (1995).

Silverman, BW (1986). Estimation de la densité pour les statistiques et l'analyse des données. CRC / Chapman & Hall.

Wand, MP et Jones, MC (1995). Lissage du noyau. Londres: Chapman & Hall / CRC.

— Tim
source

x

$x$

x_{i}

$x_i$

x

$x$

1

@anonymous J'ai ajouté modifier en référant votre question dans le commentaire à la fin du paragraphe "Dire ceci en anglais ...".

— Tim

4

$\phi$ , et que la fonction gaussienne est un choix très courant.

$x$ $\phi_h(x_i - x)$ $x$ $x_1=1$ $x_2 = 2$ $\sigma=1$ $\phi_h$ $x$ serait $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$ .

3) Vous pouvez brancher n'importe quelle fonction de densité que vous aimez comme fonction de fenêtre.

4) $h$ determines the width of your chosen window function.

— David J. Harris
source