Si vous pouvez continuer à ajouter de nouvelles données (basées sur un concept principal tel que la zone, c'est-à-dire le code postal) et que les performances de votre modèle s'améliorent, alors cela est bien sûr autorisé ... en supposant que vous ne vous souciez que du résultat final.
Il existe des mesures qui tenteront de vous guider à cet égard , comme le critère d'information Akaike (AIC) ou le critère d'information bayésien (BIC) comparable . Ceux-ci aident essentiellement à choisir un modèle en fonction de ses performances, étant punis pour tous les paramètres supplémentaires qui sont introduits et qui doivent être estimés. L'AIC ressemble à ceci:
A I C =2k-2ln( L^)
où est le nombre de paramètres à estimer, c'est-à-dire le nombre de caractéristiques que vous appliquez, car chacun aura un coefficient dans votre régression logistique. est la valeur maximale du maximum de vraisemblance (équivalente au score optimal). BIC utilise simplement légèrement différemment pour punir les modèles.kL^k
Ces critères peuvent vous aider à savoir quand vous arrêter, car vous pouvez essayer des modèles avec de plus en plus de paramètres et simplement prendre le modèle qui a la meilleure valeur AIC ou BIC.
Si vous avez encore d'autres fonctionnalités dans le modèle, qui ne sont pas liées au ZIP, elles pourraient potentiellement être dépassées - cela dépend du modèle que vous utilisez. Cependant, ils peuvent également expliquer des choses sur l'ensemble de données qui ne peuvent tout simplement pas être contenues dans les informations ZIP, telles que la surface au sol d'une maison (en supposant que cela soit relativement indépendant du code postal).
Dans ce cas, vous pouvez les comparer à quelque chose comme l'analyse en composantes principales, où une collection de caractéristiques explique une dimension de la variance dans l'ensemble de données, tandis que d'autres caractéristiques expliquent une autre dimension. Donc, peu importe le nombre de fonctionnalités liées à ZIP que vous possédez, vous ne pouvez jamais expliquer l'importance de la surface au sol.