Étant donné deux modèles de régression linéaire, quel modèle fonctionnerait mieux?

J'ai suivi un cours d'apprentissage automatique à mon collège. Dans l'un des questionnaires, cette question a été posée.

Modèle 1:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ Modèle 2: $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
Lequel des modèles ci-dessus correspondrait mieux aux données? (supposons que les données peuvent être modélisées en utilisant une régression linéaire)

La bonne réponse (selon le professeur) est que les deux modèles fonctionneraient aussi bien. Cependant, je pense que le premier modèle conviendrait mieux.

C'est la raison de ma réponse. Le deuxième modèle, qui peut être réécrit sous la forme $\alpha x + \epsilon$ , $\alpha = \theta + \theta^2$ ne serait pas le même que le premier modèle. $\alpha$ est en fait une parabole, et a donc une valeur minimale ( $-0.25$ dans ce cas). Maintenant, à cause de cela, la plage de $\theta$ dans le premier modèle est supérieure à la plage de $\alpha$ dans le deuxième modèle. Par conséquent, si les données étaient telles que le meilleur ajustement avait une pente inférieure à $-0.25$ , le deuxième modèle se comporterait très mal par rapport au premier. Cependant, dans le cas où la pente du meilleur ajustement était supérieure à $-0.25$ , les deux modèles fonctionneraient aussi bien.

Le premier est-il donc meilleur, ou les deux sont-ils exactement les mêmes?

— kush
source

Je pense que vous avez raison. Exiger qu'un paramètre

α

$\alpha$ soit exprimable comme

θ + θ^{2}

$\theta + \theta^2$ (pour certains

θ

$\theta$ ) impose en effet une contrainte sur ce que les

α

$\alpha$ sont possibles. Cela signifie que le deuxième modèle peut exprimer moins de relations que le premier, car il s'agit essentiellement maintenant d'un problème d'optimisation contraint. Votre raisonnement me semble solide.

— Matthew Drury

@MatthewDrury Je viens de découvrir où je me suis trompé, regardez la réponse ci-dessous (et le commentaire)

— kush

Je vois votre commentaire, mais c'est une gymnastique assez sérieuse pour supposer que

prendrait des valeurs complexes. Je voudrais certainement assister à quelques heures de bureau pour parler de cela avec votre professeur. Vous obtiendrez une bonne discussion de toute façon.

θ

$\theta$

— Matthew Drury

Je ne sais pas d'où vient le -0.25. Pouvez-vous clarifier?

— Mad Jack

J'aimerais savoir comment votre professeur adapterait chaque modèle à l'ensemble de données à deux points

. Avec le modèle 1 et

l'ajustement est parfait, mais comment pourrait-il estimer

dans le modèle 2 pour obtenir un ajustement parfait?

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$

θ = - 1

$\theta=-1$

θ

$\theta$

— whuber

Réponses:

Le modèle 2 peut s'écrire: Cela semble similaire au modèle 1, juste avec une notation différente pour les hyperparamètres ( ). Cependant, pour le modèle 1 , on peut écrire

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

Mais puisque dans le modèle 2 , nous avons que alors que vous avez mentionné en effet la gamme de doit appartenir à pour . Ce qui entraînera une différence dans ces 2 modèles.

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

Ainsi , dans le modèle 2 vous Contraindre votre estimation du coefficient contrairement modèle 1. Pour le rendre plus clair, il convient de noter que dans le modèle est obtenue en minimisant la fonction de perte carré $\hat{\theta}$ Cependantdans le modèle 2l'estimation est obtenue par

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

qui pourrait conduire à un résultat différent.

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

— Wis
source

Cela a du sens, cela m'a juste frappé qu'il n'y ait pas de contrainte sur

dans le deuxième modèle! Dans le cas où

est négatif,

peut avoir des valeurs complexes. Mais cela n'affecte pas vraiment le modèle, non? Je n'ai pas de représentant pour voter, mais merci beaucoup!

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

— kush

@kush Veuillez vérifier ma réponse modifiée qui répond également à votre préoccupation

— Wis

Je ne suis pas sûr de comprendre votre raisonnement. Si vous prenez:

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

et estimez et utilisant une régression linéaire simple, vous obtiendrez = . De plus, comme la méthodologie est exactement la même, il n'y a aucune différence dans la valeur que vous obtiendriez dans l'une ou l'autre équation. La valeur sous-jacente de dans la première équation sera bien sûr différente, puisque , mais cela n'a rien à voir avec l'ajustement. $\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

— akeenlogician
source

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$