Estimation robuste de la distribution de Poisson

J'ai un ensemble de nombres qui sont supposés provenir d'une distribution de Poisson. L'ensemble a également des valeurs aberrantes et, à cause de cela, les estimations du maximum de probabilité sont gravement affectées. J'ai entendu dire que des procédures d'estimation robustes peuvent aider dans une telle situation. Quelqu'un peut-il expliquer comment procéder? Je ne suis pas étudiant en statistiques.

J'ai trouvé que la glmrobfonction dans R peut être utilisée pour cela. (Je suis assez nouveau pour R). Mais je ne pouvais pas comprendre comment l'utiliser malgré la lecture des pages de manuel. En particulier, je ne peux pas comprendre comment obtenir un forumulaqui est le premier argument de la fonction glmrob.

Merci.

— suresh
source

Avez-vous lu la documentation de glmrob ? Il existe un exemple de code pour un ajustement de Poisson robuste à p. 23.

— whuber

Je les ai regardés. Dans cet exemple à la page 23, il existe une formule comme celle-ci sumY ~ Age10 + Base4*Trt. Avec les données dont je dispose, je suis incapable de trouver de telles formules. J'ai juste un tas de nombres supposés provenir d'une distribution de Poisson. Si je comprends bien, je n'ai pas de variable dépendante et de variable indépendante et c'est peut-être pourquoi je ne suis pas en mesure de trouver une formule.

— suresh

Vous avez implicitement un terme d'interception.

— Cardinal

Vous avez des nombres de poissons qui sont vos réponses et vos "prédicteurs" consistent simplement en un terme d'interception, c'est-à-dire que vous voulez le modéliser comme si toutes vos réponses provenaient de la même distribution. Est-ce que ça fait plus de sens? :)

— Cardinal

Exemple de formule: y~1.

— Cardinal

@cardinal a télégraphié une réponse dans les commentaires. Allons-y. Son point de vue est que, bien que les modèles linéaires généraux (tels que ceux mis en œuvre par lmet, dans ce cas, glmRob) semblent destinés à évaluer les relations entre les variables, ils peuvent aussi être de puissants outils pour étudier une seule variable. L'astuce repose sur le fait que la régression des données par rapport à une constante n'est qu'une autre façon d'estimer sa valeur moyenne («emplacement») .

À titre d'exemple, générez des données de Poisson:

set.seed(17)
x <- rpois(10, lambda=2)

Dans ce cas, Rproduira le vecteur $(1,5,2,3,2,2,1,1,3,1)$ des valeurs xd'une distribution de Poisson de la moyenne $2$ . Estimez son emplacement avec glmRob:

library(robust)
glmrob(x ~ 1, family=poisson())

La réponse nous indique que l' ordonnée à l'origine est estimée à $0.7268$ . Bien entendu, toute personne utilisant une méthode statistique doit savoir comment elle fonctionne: lorsque vous utilisez des modèles linéaires généralisés avec la famille Poisson, la fonction "lien" standard est le logarithme. Cela signifie que l'ordonnée à l'origine est le logarithme de l'emplacement estimé. Nous calculons donc

exp(0.7268)

Le résultat, $2.0685$ , est confortablement proche de $2$ : la procédure semble fonctionner. Pour voir ce qu'il fait, tracez les données:

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Terrain avec ligne ajustée

La droite ajustée est purement horizontale et estime donc le milieu des valeurs verticales: nos données. C'est tout ce qui se passe.

Pour vérifier la robustesse, créons une mauvaise valeur aberrante en plaçant quelques zéros sur la première valeur de x:

x[1] <- 100

Cette fois, pour une plus grande flexibilité dans le post-traitement, nous allons enregistrer la sortie de glmRob:

m <- glmrob(x ~ 1, family=poisson())

Pour obtenir la moyenne estimée, nous pouvons demander

exp(m$coefficients)

La valeur cette fois est égale à $2.496$ : un peu en retrait, mais pas trop loin, étant donné que la valeur moyenne de x(obtenue comme mean(x)) est $12$ . C'est dans ce sens que cette procédure est "robuste". Plus d'informations peuvent être obtenues via

summary(m)

Sa sortie nous montre, entre autres, que le poids associé à la valeur périphérique de $100$ en x[1]est juste $0.02179$ , presque $0$ , identifiant la valeur aberrante suspectée.

— whuber
source

(+1) Belle présentation, comme d'habitude. :)

— cardinal

Merci beaucoup. Une telle réponse est très importante pour moi maintenant parce que je suis complètement nouveau dans tout cela (des termes comme prédicteur, interception et même le package R).

— suresh

Pouvez-vous indiquer un outil similaire pour une distribution de Poisson bivariée?

— Diogo Santos

@Diogo Cela dépend de ce que cet outil est censé faire et précisément de la forme de dépendance entre les marginaux utilisée.

— whuber