Ce que vous voulez faire n'existe pas car il est, faute d'un meilleur mot, mathématiquement défectueux.
Mais d'abord, je soulignerai pourquoi je pense que les prémisses de votre question sont valables. J'essaierai ensuite d'expliquer pourquoi je pense que les conclusions que vous en tirez reposent sur une mauvaise compréhension du modèle logistique et, enfin, je proposerai une approche alternative.
Je noterai vosnobservations (les lettres les plus audacieuses désignent des vecteurs) qui se trouvent dans l'espace dimensionnelp(la première entrée de x{ ( xXje, yje) }ni = 1np est 1) avecp<n, y i ∈[0,1]et f( xXXjep < nyje∈ [ 0 , 1 ] est une fonction monotone de xF( xXje) = f( xX′jeββ) , disons comme lacourbe logistiquepour fixer les idées. Par commodité, je suppose simplement que n estsuffisammentgrand par rapport à p .XX′jeββnp
Vous avez raison de dire que si vous avez l'intention d'utiliser TVD comme critère pour évaluer le modèle ajusté, alors il est raisonnable de s'attendre à ce que votre ajustement optimise ce même critère parmi tous les candidats possibles, sur vos données. Par conséquent
ββ∗= argminββ∈ Rp| | yy- f( xX′jeββ) | |1
Le problème est le terme d'erreur :
et si nous appliquons E ( ϵϵje= yje- f( xX′jeββ) (nous voulons simplement que notre modèle soit asymptotiquementnon biaisé), alors, ϵ i doitêtrehétéroscédastique. En effet, y i ne peut prendre que deux valeurs, 0 et 1. Par conséquent, étant donné
xE( ϵϵ )=0ϵje yje , ϵ i ne peut également prendre que deux valeurs:1-f( xXXjeϵje lorsque y i = 1 , ce qui se produit avec la probabilité f ( x1 - f( xX′jeββ)yje= 1 , et - f ( xF( xX′jeββ) lorsque y i = 1 , ce qui se produit avec la probabilité 1 - f ( x- f( xX′jeββ)yje= 11 - f( xX′jeββ) .
Ensemble, ces considérations impliquent que:
var ( ϵϵ )=E( ϵϵ2) = ( 1 - f( xX′ββ) )2F( xX′ββ) + ( - f( xX′ββ) )2( 1 - f( xX′ββ) )= ( 1 - f( xX′ββ) ) f( xX′ββ) = E( yy| Xx )E( 1 - yy| Xx )
d'où n'est pas constant mais en forme de parabole concave et est maximisé lorsque xvar ( ϵϵ ) est tel que E ( y | xXX .E( y| Xx )≈.5
Cette hétéroscédasticité inhérente des résidus a des conséquences . Cela implique entre autres que lorsque vous minimisez la fonction de perte , vous surpondérez asymptotiquement une partie de votre échantillon. Autrement dit, le β ajustél1 ne correspond pas du tout aux données, mais seulement à la partie de celles-ci qui est regroupée autour des endroits où xββ∗ est tel que E ( yXX . À savoir, ce sontles points de données les moins informatifs de votre échantillon: ils correspondent aux observations pour lesquelles la composante de bruit est la plus importante. Par conséquent, votre ajustement est tiré vers βE( yy| Xx )≈.5 , p.ex. rendu non pertinent.ββ∗= ββ: f( xX′ββ) ≈ .5
Une solution, comme il ressort de l'exposé ci-dessus, consiste à supprimer l'exigence de non-impartialité. Une façon populaire de biaiser l'estimateur (avec une interprétation bayésienne jointe) est d'inclure un terme de rétrécissement. Si nous redimensionnons la réponse:
y+je= 2 ( yje- .5 ) , 1 ≤ i ≤ n
et, pour des raisons de calcul, remplacer par une autre fonction monotone g ( xF( xX′ββ) --il sera commode pour la suite pour désigner la première composante du vecteur de paramètretant que c et le reste p - 1 les yg( xx , [ c , γγ] ) = xX′[ c , γγ]cp - 1γγ| | γγ| |2
[ c∗, γγ∗] = argmin[[ c , γγ] ∈ Rp∑i = 1nmax ( 0 , 1 - y+jeXX′je[[ c , γγ] ) + 12| | γγ| |2
XX′[[ c , γ] pour un mal classé - comme dans le l1perte. le[ c∗, γγ∗]solution à ce deuxième problème d'optimisation sont les célèbres coefficients svm linéaires (avec séparation parfaite). Contrairement à laββ∗, il est logique d'apprendre ces [ c∗, γγ∗]à partir des données avec une pénalité de type TVD («type» en raison du terme de biais). Par conséquent, cette solution est largement mise en œuvre. Voir par exemple le package R LiblineaR .