Qu'est-ce qu'une hypothèse d'une procédure statistique?
Je ne suis pas un statisticien et donc cela pourrait être faux, mais je pense que le mot "hypothèse" est souvent utilisé de manière informelle et peut faire référence à diverses choses. Pour moi, une "hypothèse" est, à proprement parler, quelque chose que seul un résultat théorique (théorème) peut avoir.
Lorsque les gens parlent d'hypothèses de régression linéaire ( voir ici pour une discussion approfondie), ils se réfèrent généralement au théorème de Gauss-Markov qui dit que sous des hypothèses d'erreurs à moyenne nulle non corrélées et à variance égale, l'estimation OLS est BLEUE , c'est-à-dire sans biais et avec une variance minimale. En dehors du contexte du théorème de Gauss-Markov, il n'est pas clair pour moi ce qu'une "hypothèse de régression" signifierait même.
De même, les hypothèses d'un, disons, un échantillon test t se référer aux hypothèses dans lesquelles -statistic est - t -distributed et par conséquent l'inférence est valide. Ce n'est pas appelé un "théorème", mais c'est un résultat mathématique clair: si n échantillons sont normalement distribués, alors la statistique t suivra la distribution t de Student avec n - 1 degrés de liberté.ttnttn−1
Hypothèses des techniques de régression pénalisées
Considérons maintenant toute technique de régression régularisée: régression de crête, lasso, filet élastique, régression des composantes principales, régression des moindres carrés partiels, etc. etc. Le but de ces méthodes est de faire une estimation biaisée des paramètres de régression, et en espérant réduire le perte en exploitant le compromis biais-variance.
Toutes ces méthodes incluent un ou plusieurs paramètres de régularisation et aucune d'entre elles n'a de règle définie pour sélectionner les valeurs de ces paramètres. La valeur optimale est généralement trouvée via une sorte de procédure de validation croisée, mais il existe différentes méthodes de validation croisée et elles peuvent donner des résultats quelque peu différents. De plus, il n'est pas rare d'invoquer quelques règles de base supplémentaires en plus de la validation croisée. En conséquence, le résultat réel β de l' une de ces méthodes de régression est pénalisée pas réellement entièrement défini par la méthode, mais peut dépendre des choix de l'analyste.β^
β^
Mais qu'en est-il du résultat mathématique que la régression de crête bat toujours OLS?
Hoerl et Kennard (1970) dans Ridge Regression: Bided Estimation for Nonorthogonal Problems ont prouvé qu'il existe toujours une valeur du paramètre de régularisation telle que l'estimation de régression de crête de β a une perte attendue strictement inférieure à l'estimation de l'OLS. C'est un résultat surprenant - voir ici pour une discussion, mais cela prouve seulement l'existence d'un tel λ , qui dépendra de l'ensemble de données.λβλ
Ce résultat ne nécessite en fait aucune hypothèse et est toujours vrai, mais il serait étrange de prétendre que la régression de crête ne comporte aucune hypothèse.
D'accord, mais comment savoir si je peux appliquer une régression de crête ou non?
Je dirais que même si nous ne pouvons pas parler d'hypothèses, nous pouvons parler de règles générales . Il est bien connu que la régression des crêtes a tendance à être plus utile en cas de régression multiple avec des prédicteurs corrélés. Il est bien connu qu'il a tendance à surperformer l'OLS, souvent par une grande marge. Il aura tendance à le surpasser même en cas d'hétéroscédasticité, d'erreurs corrélées, ou quoi que ce soit d'autre. Ainsi, la règle générale simple dit que si vous avez des données multicollinéaires, la régression de crête et la validation croisée sont une bonne idée.
Il existe probablement d'autres règles générales utiles et des astuces commerciales (telles que, par exemple, que faire des valeurs aberrantes brutes). Mais ce ne sont pas des hypothèses.
pp