L'estimation de densité de fenêtre de Parzen est un autre nom pour l' estimation de densité de noyau . Il s'agit d'une méthode non paramétrique pour estimer la fonction de densité continue à partir des données.
Imaginez que vous avez des points de données x1,…,xn qui proviennent d'une distribution commune inconnue, vraisemblablement continue f . Vous souhaitez estimer la distribution compte tenu de vos données. Une chose que vous pourriez faire est simplement de regarder la distribution empirique et de la traiter comme un échantillon équivalent de la vraie distribution. Cependant, si vos données sont continues, vous verrez probablement chaque xipoint n'apparaissent qu'une seule fois dans l'ensemble de données, donc sur la base de cela, vous concluriez que vos données proviennent d'une distribution uniforme puisque chacune des valeurs a une probabilité égale. J'espère que vous pouvez faire mieux que cela: vous pouvez regrouper vos données dans un certain nombre d'intervalles également espacés et compter les valeurs qui tombent dans chaque intervalle. Cette méthode serait basée sur l'estimation de l' histogramme . Malheureusement, avec l'histogramme, vous vous retrouvez avec un certain nombre de casiers, plutôt qu'avec une distribution continue, ce n'est donc qu'une approximation approximative.
L'estimation de la densité du noyau est la troisième alternative. L'idée principale est que vous approximez f par un mélange de distributions continues K (en utilisant votre notation ϕ ), appelées noyaux , qui sont centrées sur xi points de données et ont une échelle ( bande passante ) égale à h :
fh^(x)=1nh∑i=1nK(x−xih)
Ceci est illustré sur l'image ci-dessous, où la distribution normale est utilisée comme noyau K et différentes valeurs pour la bande passante h sont utilisées pour estimer la distribution compte tenu des sept points de données (marqués par les lignes colorées en haut des tracés). Les densités colorées sur les parcelles sont des noyaux centrés en xi points. Notez que h est un paramètre relatif , sa valeur est toujours choisie en fonction de vos données et la même valeur de h peut ne pas donner des résultats similaires pour différents ensembles de données.
Kernel K peut être pensé comme une fonction de densité de probabilité, et il doit s'intégrer à l'unité. Il doit également être symétrique pour que K(x)=K(−x) et, ce qui suit, centré à zéro. Article Wikipédia sur les noyaux répertorie de nombreux noyaux populaires, comme le gaussien (distribution normale), Epanechnikov, rectangulaire (distribution uniforme), etc. Fondamentalement, toute distribution répondant à ces exigences peut être utilisée comme noyau.
Évidemment, l'estimation finale dépendra de votre choix de noyau (mais pas tant que ça) et du paramètre de bande passante h . Le fil suivant
Comment interpréter la valeur de la bande passante dans une estimation de densité de noyau?décrit l'utilisation des paramètres de bande passante plus en détail.
En disant cela en anglais simple, ce que vous supposez ici, c'est que les points observés xi sont qu'un échantillon et suivent une distribution f à estimer. Puisque la distribution est continue, nous supposons qu'il existe une densité inconnue mais non nulle autour du voisinage proche de xi points (le voisinage est défini par le paramètre h ) et nous utilisons les noyaux K pour en tenir compte. Plus il y a de points dans un quartier, plus la densité s'accumule autour de cette région et donc, plus la densité globale de fh^ élevée . La fonction résultante fh^ peut maintenant être évaluée pour tout pointx.(sans indice) pour obtenir une estimation de densité pour cela, voici comment nous avons obtenu la fonction fh^(x) qui est une approximation de la fonction de densité inconnue f(x)
La bonne chose à propos des densités de noyau est que, pas comme les histogrammes, ce sont des fonctions continues et qu'elles sont elles-mêmes des densités de probabilité valides car elles sont un mélange de densités de probabilité valides. Dans de nombreux cas, c'est aussi proche que possible de l'approximation de f .
La différence entre la densité du noyau et d'autres densités, en tant que distribution normale, est que les densités "habituelles" sont des fonctions mathématiques, tandis que la densité du noyau est une approximation de la densité réelle estimée à l'aide de vos données, donc ce ne sont pas des distributions "autonomes".
Je vous recommanderais les deux beaux livres d'introduction à ce sujet de Silverman (1986) et Wand et Jones (1995).
Silverman, BW (1986). Estimation de la densité pour les statistiques et l'analyse des données. CRC / Chapman & Hall.
Wand, MP et Jones, MC (1995). Lissage du noyau. Londres: Chapman & Hall / CRC.