J'essaie de prédire un score d'équilibre et j'ai essayé plusieurs méthodes de régression différentes. Une chose que j'ai remarquée, c'est que les valeurs prédites semblent avoir une sorte de limite supérieure. Autrement dit, le solde réel est de , mais mes prédictions atteignent un sommet d'environ 0,8 . Le graphique suivant montre le solde réel par rapport au solde prévu (prévu avec régression linéaire):
Et voici deux diagrammes de distribution des mêmes données:
Étant donné que mes prédicteurs sont très biaisés (données utilisateur avec distribution de loi de puissance), j'ai appliqué une transformation Box-Cox, qui change les résultats comme suit:
Bien que cela modifie la distribution des prédictions, il y a toujours cette limite supérieure. Mes questions sont donc:
- Quelles sont les raisons possibles de ces limites supérieures dans les résultats de prédiction?
- Comment puis-je fixer les prévisions pour qu'elles correspondent à la distribution des valeurs réelles?
Bonus: étant donné que la distribution après la transformation de Box-Cox semble suivre les distributions des prédicteurs transformés, est-il possible que cela soit directement lié? Si oui, y a-t-il une transformation que je peux appliquer pour adapter la distribution aux valeurs réelles?
Edit: j'ai utilisé une régression linéaire simple avec 5 prédicteurs.