Bande passante du noyau: les règles de Scott contre Silverman

Quelqu'un pourrait-il expliquer en anglais simple quelle est la différence entre les règles empiriques de Scott et Silverman pour la sélection de la bande passante? Plus précisément, quand est-ce que l'un est meilleur que l'autre? Est-ce lié à la distribution sous-jacente? Nombre d'échantillons?

PS Je fais référence au code dans SciPy .

kernel-smoothing

— xrfang
source

Je ne veux pas non plus connaître le python. Je veux juste de l'aide pour comprendre quand utiliser quelle règle et pourquoi.

— xrfang

Les commentaires dans le code semblent finir par définir les deux de manière essentiellement identique (à part une différence relativement faible dans la constante).

Les deux sont de la forme $cAn^{-1/5}$ , à la fois avec ce qui ressemble à la même $A$ (estimation de l' échelle), et $c$ « est très proche de 1 (proche de l'incertitude typique dans l'estimation de la bande passante optimale) .

[L'estimation de binwdith qui semble le plus souvent être associé à Scott est celui de son papier 1979 [1] ( $3.49 s n^{-1/3}$ ) - voir par exemple Wikipedia - défiler vers le bas un peu - ou R de nclass.scott.]

Le 1.059 dans ce que le code appelle l '"estimation Scott" est dans le livre (antérieur) de Silverman (voir p45 de la référence Silverman sur votre lien - la dérivation de Scott se trouve sur p130-131 du livre auquel ils se réfèrent). Il provient d'une estimation de théorie normale.

$1.059\sigma$

$A$ $\sigma$

Pour des raisons similaires à celles que j'ai suggérées auparavant, Silverman suggère de réduire 1.059 (en fait, il utilise en fait 1.06 partout, pas 1.059 - comme Scott dans son livre). Il choisit une valeur réduite qui ne perd pas plus de 10% d'efficacité sur IMSE à la normale, d'où vient le 0,9.

Donc, ces deux largeurs de bin sont basées sur la largeur de bin optimale IMSE à la normale, une juste à l'optimum, l'autre (environ 15% plus petite, pour obtenir à moins de 90% l'efficacité de l'optimum à la normale). [Je les appellerais tous les deux des estimations "Silverman". Je ne sais pas pourquoi ils nomment le 1.059 pour Scott.]

À mon avis, les deux sont beaucoup trop grands. Je n'utilise pas d'histogrammes pour obtenir des estimations optimales IMSE de la densité. Si cela (obtenir des estimations de la densité optimales au sens IMSE) était ce que je voulais faire, je ne voudrais pas utiliser des histogrammes à cette fin.

Les histogrammes doivent être errants du côté le plus bruyant (laissez l'œil faire le lissage nécessaire). Je double presque toujours (ou plus) le nombre de bacs par défaut de ce type de règles. Je n'utiliserais donc pas 1,06 ou 0,9, j'aurais tendance à utiliser quelque chose autour de 0,5, peut-être moins pour des échantillons de très grande taille.

Il y a vraiment très peu de choix entre eux, car ils donnent tous deux trop peu de casiers pour être très utiles pour trouver ce qui se passe dans les données (sur lesquelles, au moins pour de petits échantillons, voir ici .

[1]: Scott, DW (1979), «On optimal and data-based histograms», Biometrika , 66 , 605-610.

— Glen_b -Reinstate Monica
source

Selon le document SciPy ici , la règle Scott est: n ** (- 1./(d+4)). En regardant le code, j'ai trouvé que j'avais mal compris la règle comme "scotts_factor". Vous avez raison de dire que la bande passante est beaucoup trop large. Je vais ouvrir une nouvelle question sur la sélection de la bande passante numérique. Merci.

— xrfang

d = 1

$d=1$

n^{- 1 / 5}

$n^{-1/5}$

A

$A$

c

$c$

@ Glen_b-ReinstateMonica Pourriez-vous jeter un oeil à la question que j'ai postée ici ? Je montre les problèmes que la règle de Silverman peut entraîner lorsqu'un grand échantillon est utilisé. Pourriez-vous répondre en détail à ce qui se passe?

— user269666