Pourquoi est-il nécessaire de poser l'hypothèse distributionnelle sur les erreurs, c'est-à-dire
ϵ i ∼ N ( 0 , σ 2 ) , avec .
Pourquoi ne pas écrire
y i ~ N ( X β , σ 2 ) , avec ,
où dans les deux cas . Je l'ai vu souligné que les hypothèses de distribution sont placées sur les erreurs, pas sur les données, mais sans explication.
Je ne comprends pas vraiment la différence entre ces deux formulations. À certains endroits, je vois des hypothèses de distribution être placées sur les données (Bayesian lit. il semble surtout), mais la plupart du temps, les hypothèses sont placées sur les erreurs.
Lors de la modélisation, pourquoi choisir / devrait-on commencer par des hypothèses sur l'une ou l'autre?