Cette question est intéressante dans la mesure où elle expose certains liens entre la théorie de l'optimisation, les méthodes d'optimisation et les méthodes statistiques que tout utilisateur capable de statistiques doit comprendre. Bien que ces connexions soient simples et faciles à apprendre, elles sont subtiles et souvent négligées.
Pour résumer quelques idées tirées des commentaires des autres réponses, je voudrais souligner qu'il existe au moins deux façons dont la "régression linéaire" peut produire des solutions non uniques - pas seulement en théorie, mais en pratique.
Manque d'identifiabilité
Le premier est lorsque le modèle n'est pas identifiable. Cela crée une fonction objective convexe mais pas strictement convexe qui a plusieurs solutions.
Considérons, par exemple, régressant contre x et y (avec une ordonnée à l' origine) pour le ( x , y , z ) des données ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) . Une solution est z = 1 + y . Une autre est zzxy(x,y,z)(1,−1,0),(2,−2,−1),(3,−3,−2)z^=1+y . Pour voir qu'il doit y avoir plusieurs solutions, paramétrez le modèle avec trois paramètres réels ( λ , μ , ν ) et un terme d'erreur ε sous la formez^=1−x(λ,μ,ν)ε
z=1+μ+(λ+ν−1)x+(λ−ν)y+ε.
La somme des carrés des résidus se simplifie pour
SSR=3μ2+24μν+56ν2.
(Il s'agit d'un cas limitatif de fonctions objectives qui se posent dans la pratique, comme celui discuté à Est-ce que la toile de jute empirique d'un estimateur M peut être indéfinie?, Où vous pouvez lire des analyses détaillées et afficher des graphiques de la fonction.)
Du fait que les coefficients des carrés ( et 56 ) sont positifs et le déterminant 3 × 56 - ( 24 / 2 ) 2 = 24 est positif, ceci est une forme quadratique positive semi - définie en ( μ , ν , λ ) . Elle est minimisée lorsque μ = ν = 0 , mais λ peut avoir n'importe quelle valeur. Puisque la fonction objectif SSR ne dépend pas de λ3563×56−(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλ, ni son gradient (ni aucun autre dérivé). Par conséquent, tout algorithme de descente de gradient - s'il n'apporte pas de changements de direction arbitraires - définira la valeur de de la solution quelle que soit la valeur de départ.λ
Même lorsque la descente de gradient n'est pas utilisée, la solution peut varier. Dans R
, par exemple, il existe deux façons simples et équivalentes de spécifier ce modèle: as z ~ x + y
or z ~ y + x
. Le premier rendement z = 1 - x , mais la seconde donne z = 1 + y . z^=1−xz^=1+y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
(Les NA
valeurs doivent être interprétées comme des zéros, mais avec un avertissement indiquant l'existence de plusieurs solutions. L'avertissement a été possible en raison d'analyses préliminaires effectuées R
indépendamment de sa méthode de solution. Une méthode de descente en gradient ne détecterait probablement pas la possibilité de plusieurs solutions, même si un bon vous avertirait d'une certaine incertitude qu'il était arrivé à l'optimum.)
Contraintes de paramètres
Une convexité stricte garantit un optimum global unique, à condition que le domaine des paramètres soit convexe. Les restrictions de paramètres peuvent créer des domaines non convexes, conduisant à plusieurs solutions globales.
Un exemple très simple est fourni par le problème de l'estimation d'une "moyenne" pour les données - 1 , 1 soumises à la restriction | μ | ≥ 1 / deux . Cela modélise une situation qui est un peu à l'opposé des méthodes de régularisation comme Ridge Regression, le Lasso ou Elastic Net: il insiste pour qu'un paramètre de modèle ne devienne pas trop petit. (Diverses questions sont apparues sur ce site pour savoir comment résoudre les problèmes de régression avec de telles contraintes de paramètres, montrant qu'ils se posent en pratique.)μ−1,1|μ|≥1/2
Il existe deux solutions des moindres carrés à cet exemple, toutes deux également bonnes. On les trouve en minimisant soumis à la contrainte | μ | ≥ 1 / deux . Les deux solutions sont μ = ± 1 / 2 . Plus d'une solution peut se produire parce que la restriction des paramètres rend le domaine u ∈ ( - ∞ , - 1 / 2 ] ∪(1−μ)2+(−1−μ)2|μ|≥1/2μ=±1/2 non convexe:μ∈(−∞,−1/2]∪[1/2,∞)
La parabole est le graphe d'une fonction (strictement) convexe. La partie rouge épaisse est la partie restreinte au domaine de : il a deux points les plus bas à μ = ± 1 / deux , où la somme des carrés est cinq / deux . Le reste de la parabole (représentée en pointillés) est supprimée par la contrainte, éliminant ainsi son minimum unique de la considération.μμ=±1/25/2
Une méthode de descente de gradient, à moins qu'il était prêt à prendre de grands sauts, trouverait probablement la solution « unique » en commençant par une valeur positive et sinon , il trouverait la solution « unique » μ = - 1 / 2 lorsque en commençant par une valeur négative.μ=1/2μ=−1/2
La même situation peut se produire avec des ensembles de données plus grands et dans des dimensions plus élevées (c'est-à-dire avec plus de paramètres de régression à ajuster).