Quel est le besoin d'hypothèses en régression linéaire?


15

En régression linéaire, nous faisons les hypothèses suivantes

  • La moyenne de la réponse, , à chaque ensemble de valeurs des prédicteurs, , est une fonction linéaire des prédicteurs.E(Yi)(x1i,x2i,)
  • Les erreurs, εi , sont indépendantes.
  • Les erreurs, εi , à chaque ensemble de valeurs des prédicteurs, (x1i,x2i,) , sont normalement distribuées.
  • Les erreurs, εi , à chaque ensemble de valeurs des prédicteurs, (x1i,x2i,) , ont des variances égales (notées σ2 ).
  • L'une des façons de résoudre la régression linéaire consiste à utiliser des équations normales, que nous pouvons écrire sous la forme

    θ=(XTX)1XTY

    D'un point de vue mathématique, l'équation ci-dessus n'a besoin que de pour être inversible. Alors, pourquoi avons-nous besoin de ces hypothèses? J'ai demandé à quelques collègues et ils ont mentionné que c'est pour obtenir de bons résultats et que les équations normales sont un algorithme pour y parvenir. Mais dans ce cas, comment ces hypothèses aident-elles? Comment leur maintien aide-t-il à obtenir un meilleur modèle?XTX


    2
    Une distribution normale est nécessaire pour calculer les intervalles de confiance des coefficients en utilisant des formules habituelles. D'autres formules de calcul de CI (je pense que c'était blanc) permettent une distribution non normale.
    keiv.fly

    Vous n'avez pas toujours besoin de ces hypothèses pour que le modèle fonctionne. Dans les réseaux de neurones, vous avez des régressions linéaires à l'intérieur et elles minimisent le rmse tout comme la formule que vous avez fournie, mais très probablement aucune des hypothèses ne tient. Pas de distribution normale, pas de variance égale, pas de fonction linéaire, même les erreurs peuvent être dépendantes.
    keiv.fly


    1
    @Alexis Les variables indépendantes étant iid n'est certainement pas une hypothèse (et la variable dépendante étant iid n'est pas non plus une hypothèse - imaginez que si nous supposions que la réponse était iid, il serait inutile de faire autre chose que d'estimer la moyenne). Et "aucune variable omise" n'est pas vraiment une hypothèse supplémentaire bien qu'il soit bon d'éviter d'omettre des variables - la première hypothèse listée est vraiment ce qui s'en occupe.
    Dason

    1
    @Dason Je pense que mon lien fournit un exemple assez fort de "aucune variable omise" étant nécessaire pour une interprétation valide. Je pense également que iid (conditionnel aux prédicteurs, oui) est nécessaire, avec des marches aléatoires fournissant un excellent exemple de cas où l'estimation non-iid peut échouer (recourant toujours à estimer uniquement la moyenne).
    Alexis

    Réponses:




    3

    Vous n'avez pas besoin de ces hypothèses pour s'adapter à un modèle linéaire. Cependant, vos estimations de paramètres peuvent être biaisées ou ne pas avoir la variance minimale. La violation des hypothèses rendra plus difficile l'interprétation des résultats de la régression, par exemple, la construction d'un intervalle de confiance.


    1

    D'accord, jusqu'à présent, les réponses sont les suivantes: si nous violons les hypothèses, de mauvaises choses peuvent se produire. Je crois que la direction intéressante est: lorsque toutes les hypothèses dont nous avons besoin (en fait un peu différentes de celles ci-dessus) sont remplies, pourquoi et comment pouvons-nous être sûrs que la régression linéaire est le meilleur modèle?

    p(yi|xi)E[Yi|Xi=xi]xi


    0

    Les deux hypothèses clés sont

    1. Indépendance des observations
    2. La moyenne n'est pas liée à la variance

    Voir La discussion dans le livre de Julian Faraway .

    Si ces deux éléments sont vrais, OLS est étonnamment résistant aux violations des autres hypothèses que vous avez répertoriées.

    En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
    Licensed under cc by-sa 3.0 with attribution required.