Les régressions avec erreurs t-étudiants sont-elles inutiles?

Veuillez voir modifier.

Lorsque vous avez des données avec des queues lourdes, faire une régression avec des erreurs de Student-t semble être une chose intuitive à faire. En explorant cette possibilité, je suis tombé sur cet article:

Breusch, TS, Robertson, JC et Welsh, AH (1er novembre 1997). Les nouveaux vêtements de l'empereur: une critique du modèle de régression t à plusieurs variables. Statistica Neerlandica, 51, 3.) ( lien , pdf )

Ce qui fait valoir que le paramètre d'échelle et le paramètre des degrés de liberté ne sont pas identifiables l'un par rapport à l'autre dans un certain sens et qu'en raison de cela, une régression avec des erreurs t ne fait rien au-delà de ce que fait une régression linéaire standard.

Zellner (1976) a proposé un modèle de régression dans lequel le vecteur de données (ou le vecteur d'erreur) est représenté comme une réalisation de la distribution multivariée de Student t. Ce modèle a attiré une attention considérable car il semble élargir l'hypothèse gaussienne habituelle pour permettre des distributions d'erreur plus longues. Un certain nombre de résultats dans la littérature indiquent que les procédures d'inférence standard pour le modèle gaussien restent appropriées dans l'hypothèse de distribution plus large, conduisant à des affirmations de robustesse des méthodes standard. Nous montrons que, bien que mathématiquement les deux modèles soient différents, aux fins de l'inférence statistique, ils sont indiscernables. Les implications empiriques du modèle t multivarié sont précisément les mêmes que celles du modèle gaussien. Par conséquent, la suggestion d'une représentation distributionnelle plus large des données est fausse et les affirmations de robustesse sont trompeuses. Ces conclusions sont tirées à la fois du point de vue fréquentiste et bayésien.

Cela me surprend.

Je n'ai pas la sophistication mathématique pour bien évaluer leurs arguments, j'ai donc quelques questions: est-il vrai que faire des régressions avec des erreurs t n'est généralement pas utile? S'ils sont parfois utiles, ai-je mal compris le papier ou est-ce trompeur? S'ils ne sont pas utiles, est-ce bien connu? Existe-t-il d'autres façons de prendre en compte les données à queue lourde?

Edit : En lisant de plus près, du paragraphe 3 et de la section 4, il semble que le document ci-dessous ne parle pas de ce que je pensais être une régression t de l'élève (les erreurs sont des distributions t univariées indépendantes). Les erreurs proviennent plutôt d'une seule distribution et ne sont pas indépendantes. Si je comprends bien, ce manque d'indépendance explique précisément pourquoi vous ne pouvez pas estimer indépendamment l'échelle et les degrés de liberté.

Je suppose que cet article fournit une liste d'articles à éviter.

— John Salvatier
source

êtes-vous sûr de pouvoir distribuer le papier via dropbox. mieux vérifier.

— Toby El Tejedor

Je pense que la distribution laplace vous donne la possibilité de traiter les queues lourdes dans une certaine mesure.

— Toby El Tejedor

Votre modification est correcte. Les résultats présentés dans le document ne s'appliquent qu'aux erreurs multivariées-t. Si vous utilisez des erreurs t indépendantes, vous êtes en sécurité.

Je ne pense pas que le document soit bien connu, mais je pense qu'il est correct.

La littérature statistique regorge de «généralisations» qui dans de nombreux cas sont soit des reparamètres, des transformations biunivoque ou parfois inutiles car elles ne contribuent pas de manière significative à généraliser certaines propriétés du modèle en question.