La raison pour laquelle le noyau Epanechnikov n'est pas universellement utilisé pour son optimalité théorique peut très bien être que le noyau Epanechnikov n'est pas réellement théoriquement optimal . Tsybakov critique explicitement l'argument selon lequel le noyau Epanechnikov est "théoriquement optimal" aux pages 16-19 de l' introduction à l'estimation non paramétrique (section 1.2.4).
En essayant de résumer, sous certaines hypothèses sur le noyau K et une densité fixe p on a que l'erreur quadratique moyenne intégrée est de la forme
1nh∫K2(u)du+h44S2K∫(p′′(x))2dx.(1)
La principale critique de Tsybakov semble être de minimiser les noyaux non négatifs, car il est souvent possible d'obtenir des estimateurs plus performants, qui sont même non négatifs, sans se limiter aux noyaux non négatifs.
La première étape de l'argument pour le noyau Epanechnikov commence par minimiser (1) sur h et tous les noyaux non négatifs (plutôt que tous les noyaux d'une classe plus large) pour obtenir une bande passante "optimale" pour K
hMISE(K)=(∫K2nS2K∫(p′′)2)1/5
et le noyau "optimal" (Epanechnikov)
K∗(u)=34(1−u2)+
dont l'erreur quadratique moyenne intégrée est:
hMISE(K∗)=(15n∫(p′′)2)1/5.
Ces choix ne sont cependant pas réalisables, car ils dépendent de la connaissance (via p′′ ) de la densité inconnue p - il s'agit donc de quantités "oracle".
Une proposition donnée par Tsybakov implique que le MISE asymptotique pour l'oracle d'Epanechnikov est:
limn→∞n4/5Ep∫(pEn(x)−p(x))2dx=34/551/54(∫(p′′(x))2dx)1/5.(2)
Tsybakov dit que (2) est souvent considéré comme le meilleur MISE réalisable, mais montre ensuite que l'on peut utiliser des noyaux d'ordre 2 (pour lesquels SK=0 ) pour construire des estimateurs de noyau, pour chaque ε>0 , de telle sorte que
lim supn→∞n4/5Ep∫(p^n(x)−p(x))2dx≤ε.
Même si p n est pas nécessairement non-négatif, on a toujours le même résultat à l'estimateur de la partie positive, p + n : = max ( 0 , p n ) (qui est garanti pour être non-négative , même si K n'est pas):p^np+n:=max(0,p^n)K
lim supn→∞n4/5Ep∫(p+n(x)−p(x))2dx≤ε.
Par conséquent, pour ε suffisamment petit, il existe de vrais estimateurs qui ont un MISE asymptotique plus petit que l' oracle d' Epanechnikov , même en utilisant les mêmes hypothèses sur la densité inconnue p .
En particulier, on a pour résultat que l'infimum du MISE asymptotique pour un p fixe sur tous les estimateurs du noyau (ou parties positives des estimateurs du noyau) est 0 . L'oracle d'Epanechnikov n'est donc même pas près d'être optimal, même par rapport aux vrais estimateurs.
La raison pour laquelle les gens ont avancé l'argument pour l'oracle d'Epanechnikov en premier lieu est que l'on soutient souvent que le noyau lui-même devrait être non négatif parce que la densité elle-même n'est pas négative. Mais comme le souligne Tsybakov, il n'est pas nécessaire de supposer que le noyau est non négatif pour obtenir des estimateurs de densité non négatifs, et en autorisant d'autres noyaux, on peut des estimateurs de densité non négatifs qui (1) ne sont pas des oracles et (2) exécuter arbitrairement mieux que l'oracle d'Epanechnikov pour un p fixe . Tsybakov utilise cette divergence pour affirmer qu'il n'est pas logique de plaider pour l'optimalité en termes d'un p , mais uniquement pour les propriétés d'optimalité qui sont uniformes sur une classe fixe de densités. Il souligne également que l'argument fonctionne toujours lors de l'utilisation de MSE au lieu de MISE.
EDIT: Voir également le corollaire 1.1. à la p.25, où le noyau Epanechnikov se révèle inadmissible sur la base d'un autre critère. Tsybakov ne semble vraiment pas aimer le noyau Epanechnikov.
kdensity
.