J'aime toujours penser à la régression logistique comme à ce qui se passe si vous appliquez une décision binaire à un modèle linéaire. Autrement dit, supposons qu'il existe une relation sous-jacente qui suit le modèle linéaire:
où est votre variable indépendante et le coefficient (ou pente) sur cette variable, et est un bruit aléatoire. Et disons que nous appliquons une fonction à la variable continue qui la mappe sur un résultat binaire:
où
y=Xβ+ε
Xβεyf(y)={0, if y⩽θ1, if y>θ
θest un seuil. Quelle est la probabilité que cette fonction renvoie , étant donné une certaine valeur de ? Si nous supposons que est normalement distribué avec la moyenne et la variance , alors nous pouvons calculer cette probabilité comme:
1Xε0σ2
p(f(y)=1|X)=p(y>θ|X)=∫∞θN(y;Xβ,σ2)dy
En d'autres termes, il s'agit de calculer l'aire sous la distribution normale qui se trouve à droite du seuil. Notez que cette probabilité est essentiellement ce qu'un modèle de régression logistique tente de décrire. Et en effet, si vous tracez cette probabilité en fonction de , vous obtenez quelque chose d'assez proche de la fonction logistique (en fait, la fonction logistique est souvent utilisée comme une approximation pratique de la distribution normale cumulative).X
Pour les valeurs de près du seuil, la probabilité que soit au-dessus du seuil est proche de , car le bruit peut influencer le résultat de toute façon. À mesure que vous augmentez , s'éloignera de et deviendra plus probable. Surtout, la vitesse à laquelle augmente avec dépend de deux choses: la pente et la variance du bruit . Plus précisément, cela dépend du rapportXβy0.5εXXβθf(y)=1p(f(y)=1|X)Xβσ2βσ. C'est ce rapport (signal / bruit) qui détermine le coefficient (attendu) que vous obtenez d'une régression logistique. En d'autres termes, vous pouvez considérer les coefficients d'une régression logistique comme contrôlant combien chaque variable indépendante doit changer par rapport au bruit dans les données afin d'augmenter la probabilité d'un certain résultat d'un certain montant.
Passons maintenant à votre question: vous vous demandez s'il est possible d'éliminer tout hasard, c'est-à-dire de ne pas avoir de bruit. Cela signifierait que est égal à , et donc serait indéfini (ou "infini"). Cela explique ce que vous avez trouvé, que vous ne pouvez pas estimer les coefficients quand il n'y a pas de bruit. En effet, vous pouvez penser que la séparation parfaite que vous réalisez sans bruit correspond à un coefficient infini sur votre variable indépendante, car (pour près du seuil ) il vous suffit de changer une quantité infinitésimale pour aller tout le chemin de à .σ0βσXβθXp(y>θ|X)=0p(y>θ|X)=1
Edit: en fait, une chose que vous pourriez faire est au lieu de prélever des échantillons d'une distribution binomiale pour simuler vos données, remplacez ces échantillons par leur attente, c'est-à-dire la probabilité prédite par la fonction logistique simulée. De cette façon, vous supprimez le caractère aléatoire qui dérive de la simulation d'un échantillon limité (c'est-à-dire la variabilité d'échantillonnage), et donc vos estimations de coefficient devraient alors être égales à la vérité du terrain (car il existe une fonction logistique qui correspond exactement à ces valeurs).