Supposons que je veuille construire un modèle pour prédire une sorte de ratio ou de pourcentage. Par exemple, disons que je veux prédire le nombre de garçons par rapport aux filles qui assisteront à une fête, et les caractéristiques de la fête que je peux utiliser dans le modèle sont des choses comme la quantité de publicité pour la fête, la taille du lieu, s'il y a sera tout alcool à la fête, etc. (Ceci est juste un exemple inventé; les fonctionnalités ne sont pas vraiment importantes.)
Ma question est: quelle est la différence entre la prédiction d'un ratio par rapport à un pourcentage, et comment mon modèle change-t-il en fonction de celui que je choisis? Est-ce que l'un est meilleur que l'autre? Une autre fonction est-elle meilleure que l'une ou l'autre? (Je ne me soucie pas vraiment des nombres spécifiques de ratio par rapport au pourcentage; je veux juste être en mesure d'identifier quelles parties sont plus susceptibles d'être des "parties de garçon" par rapport aux "parties de fille".) Par exemple, je suis en pensant:
- Si je veux prédire un pourcentage (disons,
# boys / (# boys + # girls)
alors comme ma fonction dépendante est limitée entre 0 et 1, je devrais probablement utiliser quelque chose comme une régression logistique au lieu d'une régression linéaire. - Si je veux prédire un ratio (par exemple,
# boys / # girls
ou# boys / (1 + # girls)
pour éviter les erreurs de division par zéro), alors ma fonction dépendante est positive, alors devrais-je peut-être appliquer une sorte de transformation (log?) Avant d'utiliser une régression linéaire? (Ou un autre modèle? Quels types de modèles de régression sont utilisés pour les données positives sans dénombrement?) - Est-il préférable de prédire (par exemple) le pourcentage plutôt que le ratio, et si oui, pourquoi?