Les erreurs standard d'amorçage et les intervalles de confiance sont-ils appropriés dans les régressions où l'hypothèse d'homoscédasticité est violée?

Si, dans les régressions OLS standard, deux hypothèses sont violées (distribution normale des erreurs, homoscédasticité), l'amorçage des erreurs standard et des intervalles de confiance est-il une alternative appropriée pour obtenir des résultats significatifs en ce qui concerne la signification des coefficients du régresseur?

Les tests de signification avec des erreurs standard amorcées et des intervalles de confiance fonctionnent-ils toujours avec une hétéroscédasticité?

Si oui, quels seraient les intervalles de confiance applicables qui pourraient être utilisés dans ce scénario (percentile, BC, BCA)?

Enfin, si l'amorçage est approprié dans ce scénario, quelle serait la littérature pertinente qui doit être lue et citée pour arriver à cette conclusion? Tout indice serait grandement apprécié!

— David
source

S'il y a une telle violation, je ne pense pas que l'amorçage la guérisse. Au lieu de cela, pourquoi ne pas essayer de transformer (consigner) les données pour se rapprocher de la normalité et utiliser une erreur standard robuste telle que celle du package sandwich dans R?

— B_Miner

Le bootstrap fonctionne très bien si vous adaptez le schéma de rééchantillonnage à la situation dans laquelle vous vous trouvez.

— Glen_b -Reinstate Monica

Il existe au moins trois (peut-être plus) d'approches pour effectuer le bootstrap pour la régression linéaire avec des données indépendantes mais non distribuées de manière identique. (Si vous avez d'autres violations des hypothèses "standard", par exemple, en raison d'autocorrélations avec des données de séries chronologiques ou d'un regroupement en raison de la conception de l'échantillonnage, les choses deviennent encore plus compliquées).

Vous pouvez rééchantillonner l'observation dans son ensemble, c'est-à-dire prélever un échantillon en remplaçant partir des données d'origine . Cela sera asymptotiquement équivalent à effectuer la correction d'hétéroscédasticité Huber-White . $(y_j^*, {\bf x}_j^*)$ $\{ (y_i, {\bf x}_i) \}$
$e_i = y_i - {\bf x}_i ' \hat\beta$ ${\bf x}_j^*$ $e_j^*$ avec le remplacement de leurs distributions empiriques respectives, mais ce ventile les schémas d'hétéroscédasticité, s'il y a tout, donc je doute que ce bootstrap soit cohérent.
Vous pouvez effectuer un bootstrap sauvage dans lequel vous rééchantillonnez le signe du résiduel, qui contrôle le deuxième moment conditionnel (et, avec quelques ajustements supplémentaires, le troisième moment conditionnel également). Ce serait la procédure que je recommanderais (à condition que vous puissiez la comprendre et la défendre aux autres lorsqu'on lui a demandé: "Qu'avez-vous fait pour contrôler l'hétéroskédasticité? Comment savez-vous que cela fonctionne?").

La référence ultime est Wu (1986) , mais Annals ne sont pas exactement la lecture d'un livre d'images.

MISES À JOUR basées sur les questions de suivi du PO posées dans les commentaires:

Le nombre de répétitions m'a semblé important; la seule bonne discussion de ce paramètre de bootstrap que je connaisse est en le livre d'introduction à Bootstrap d'Efron & Tibshirani .

$M$ sur des comparaisons plus spécifiques dans des échantillons finis (une version de cet article est disponible sur l'un des sites Web des auteurs

— StasK
source

Merci beaucoup pour votre aide! Veuillez me permettre une question de suivi: les seules hypothèses que je viole sont la distribution normale des erreurs et les hypothèses d'homoscédasticité. De plus, je suis seulement intéressé à voir si mes coefficients de régression sont sig. dans la direction attendue ou non. L'ampleur de l'effet n'est pas importante. Je pense que ce que j'ai fait jusqu'à présent est votre option 1. J'ai amorcé des erreurs standard et généré en plus des intervalles de confiance amorcés. Je l'ai fait en utilisant Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Cela résout-il mes violations d'hypothèses?

— David

Je ne fais pas de diagnostics des données uniquement en fonction de votre syntaxe, et personne ne le fera. Quelle est la taille de votre ensemble de données? reps(2500)est probablement une exagération, au moins pour les erreurs standard; Je pense que reps(500)c'est OK pour la plupart des fins pratiques. Le livre d' intro bootstrap d' Efron & Tibshirani contient une section sur le nombre de répliques. Ils ont également un chapitre entier sur la régression, ce qui peut être une autre bonne référence à consulter.

— StasK

Merci pour votre réponse rapide. L'ensemble de données est ~ 250. Mis à part les questions sur le nombre de réplications (merci pour le lien!), Conviendriez-vous que les erreurs standard bootstrapées (par le biais du rééchantillonnage des observations dans leur ensemble) et / ou les intervalles de confiance bootstrapés (par exemple, centile ou biais corrigé) seraient une manière appropriée de déterminer la signification (ou son absence) d'un coefficient de régression étant donné la violation de l'homoscédasticité et de l'hypothèse de distribution normale des erreurs? Merci beaucoup pour votre contribution!

— David

Oui, je dirais que c'est mieux. Si vous utilisez Stata, vous pouvez obtenir une réponse très similaire en utilisant l' robustoption de votre régression. est storeles deux résultats et est tab, seles comparer côte à côte.

— StasK

Merci StasK. J'ai également vu le commentaire suivant que vous avez fait ailleurs sur ce site: "Bootstrap simple avec rééchantillonnage estim Estimateur robuste d'hétéroskédasticité de White". Dans le contexte de mes questions, comme indiqué ci-dessus: Y a-t-il des articles de revues publiées qui font ce point?

— David