Veuillez voir modifier.
Lorsque vous avez des données avec des queues lourdes, faire une régression avec des erreurs de Student-t semble être une chose intuitive à faire. En explorant cette possibilité, je suis tombé sur cet article:
Breusch, TS, Robertson, JC et Welsh, AH (1er novembre 1997). Les nouveaux vêtements de l'empereur: une critique du modèle de régression t à plusieurs variables. Statistica Neerlandica, 51, 3.) ( lien , pdf )
Ce qui fait valoir que le paramètre d'échelle et le paramètre des degrés de liberté ne sont pas identifiables l'un par rapport à l'autre dans un certain sens et qu'en raison de cela, une régression avec des erreurs t ne fait rien au-delà de ce que fait une régression linéaire standard.
Zellner (1976) a proposé un modèle de régression dans lequel le vecteur de données (ou le vecteur d'erreur) est représenté comme une réalisation de la distribution multivariée de Student t. Ce modèle a attiré une attention considérable car il semble élargir l'hypothèse gaussienne habituelle pour permettre des distributions d'erreur plus longues. Un certain nombre de résultats dans la littérature indiquent que les procédures d'inférence standard pour le modèle gaussien restent appropriées dans l'hypothèse de distribution plus large, conduisant à des affirmations de robustesse des méthodes standard. Nous montrons que, bien que mathématiquement les deux modèles soient différents, aux fins de l'inférence statistique, ils sont indiscernables. Les implications empiriques du modèle t multivarié sont précisément les mêmes que celles du modèle gaussien. Par conséquent, la suggestion d'une représentation distributionnelle plus large des données est fausse et les affirmations de robustesse sont trompeuses. Ces conclusions sont tirées à la fois du point de vue fréquentiste et bayésien.
Cela me surprend.
Je n'ai pas la sophistication mathématique pour bien évaluer leurs arguments, j'ai donc quelques questions: est-il vrai que faire des régressions avec des erreurs t n'est généralement pas utile? S'ils sont parfois utiles, ai-je mal compris le papier ou est-ce trompeur? S'ils ne sont pas utiles, est-ce bien connu? Existe-t-il d'autres façons de prendre en compte les données à queue lourde?
Edit : En lisant de plus près, du paragraphe 3 et de la section 4, il semble que le document ci-dessous ne parle pas de ce que je pensais être une régression t de l'élève (les erreurs sont des distributions t univariées indépendantes). Les erreurs proviennent plutôt d'une seule distribution et ne sont pas indépendantes. Si je comprends bien, ce manque d'indépendance explique précisément pourquoi vous ne pouvez pas estimer indépendamment l'échelle et les degrés de liberté.
Je suppose que cet article fournit une liste d'articles à éviter.