Je comprends que l'une des raisons pour lesquelles la régression logistique est fréquemment utilisée pour prédire les taux de clics sur le Web est qu'elle produit des modèles bien calibrés. Y a-t-il une bonne explication mathématique à cela?
Je comprends que l'une des raisons pour lesquelles la régression logistique est fréquemment utilisée pour prédire les taux de clics sur le Web est qu'elle produit des modèles bien calibrés. Y a-t-il une bonne explication mathématique à cela?
Réponses:
Oui.
Le vecteur de probabilité prédit de la régression logistique satisfait l'équation de la matrice
Où est la matrice de conception et est le vecteur de réponse. Ceci peut être considéré comme un ensemble d'équations linéaires, une provenant de chaque colonne de la matrice de plan X .
Spécialisée dans la colonne d'interception (qui est une ligne de la matrice transposée), l'équation linéaire associée est
la probabilité globale prédite moyenne est donc égale à la moyenne de la réponse.
Plus généralement, pour une colonne d' entité binaire , l'équation linéaire associée est
la somme (et donc la moyenne) des probabilités prédites est égale à la somme de la réponse, même en se spécialisant dans les enregistrements pour lesquels .
Je pense que je peux vous fournir une explication facile à comprendre comme suit:
On sait que sa fonction de perte peut s'exprimer comme la fonction suivante:
Oùm
représente le nombre de tous les échantillons d'apprentissage,l'étiquette du ième échantillon, la probabilité prédite du ième échantillon: . (remarquez le biaisici)
Le but de la formation étant de minimiser la fonction de perte, évaluons sa dérivée partielle par rapport à chaque paramètre (la dérivation détaillée se trouve ici ):
Et le mettre à zéro yeils:
Cela signifie que si le modèle est entièrement formé, les probabilités prédites que nous obtenons pour l'ensemble d'apprentissage se répartissent de sorte que pour chaque caractéristique, la somme des valeurs pondérées (toutes) de cette caractéristique soit égale à la somme des valeurs de cette caractéristique des échantillons positifs.
Ce qui précède s'adapte à toutes les fonctionnalités afin que le biais . Fixer à 1 et à yeilds:
On voit bien que la régression logistique est bien calibrée.
Référence: modèles log-linéaires et champs aléatoires conditionnels par Charles Elkan