Parce que supposer des erreurs normales revient en fait à supposer que de grosses erreurs ne se produisent pas! La distribution normale a des queues si légères, que les erreurs en dehors de écarts-types ont une très faible probabilité, des erreurs en dehors de ± 6 écarts-types sont effectivement impossibles. En pratique, cette hypothèse est rarement vraie. Lorsque nous analysons de petits ensembles de données bien rangés à partir d'expériences bien conçues, cela pourrait ne pas avoir beaucoup d'importance si nous effectuons une bonne analyse des résidus. Avec des données de moindre qualité, cela pourrait avoir beaucoup plus d'importance.±3±6
Lorsque l'on utilise des méthodes basées sur la vraisemblance (ou bayésiennes), l'effet de cette normalité (comme dit ci-dessus, c'est effectivement l'hypothèse «pas de grosses erreurs»!) Est de rendre l'inférence très peu robuste. Les résultats de l'analyse sont trop fortement influencés par les grosses erreurs! Il doit en être ainsi, car en supposant qu'il n'y a "pas de grandes erreurs" , nos méthodes doivent interpréter les grandes erreurs comme de petites erreurs, et cela ne peut se produire qu'en déplaçant le paramètre de valeur moyenne pour réduire toutes les erreurs. Une façon d'éviter cela consiste à utiliser des «méthodes robustes», voir http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
Mais Andrew Gelman n'ira pas pour cela, car les méthodes robustes sont généralement présentées de manière très non bayésienne. L'utilisation d'erreurs réparties en t dans les modèles de vraisemblance / bayésiens est une manière différente d'obtenir des méthodes robustes, car la distribution en a des queues plus lourdes que la normale, ce qui permet une plus grande proportion d'erreurs importantes. Le paramètre du nombre de degrés de liberté doit être fixé à l'avance, non estimé à partir des données, car une telle estimation détruira les propriétés de robustesse de la méthode (*) (c'est aussi un problème très difficile, la fonction de vraisemblance pour ν , le nombre degrés de liberté, peuvent être illimités, ce qui conduit à des estimateurs très inefficaces (voire incohérents).tν
Si, par exemple, vous pensez (avez peur) que jusqu'à 1 observation sur 10 pourrait être de "grosses erreurs" (au-dessus de 3 sd), alors vous pourriez utiliser une distribution avec 2 degrés de liberté, augmentant ce nombre si le la proportion d'erreurs importantes serait plus faible.t
Je dois noter que ce que j'ai dit ci-dessus concerne les modèles avec des erreurs indépendantes réparties en . Il y a également eu des propositions de distribution t multivariée (qui n'est pas indépendante) comme distribution d'erreur. Cette proposition est fortement critiquée dans l'article "Les nouveaux vêtements de l'empereur: une critique du modèle de régression multivariée t " par TS Breusch, JC Robertson et AH Welsh, dans Statistica Neerlandica (1997) Vol. 51, nr. 3, pp. 269-286, où ils montrent que la distribution d' erreur t multivariée est empiriquement impossible à distinguer de la normale. Mais cette critique n'affecte pas le modèle t indépendant . ttttt
(*) Une référence indiquant cela est MASS de Venables & Ripley --- Statistiques appliquées modernes avec S (à la page 110 de la 4e édition).