L'une de mes utilisations préférées des données de code postal est de rechercher des variables démographiques basées sur le code postal qui pourraient ne pas être disponibles au niveau individuel sinon ...
Par exemple, avec http://www.city-data.com/, vous pouvez rechercher la répartition des revenus, les tranches d'âge, etc., qui pourraient vous renseigner sur vos données. Ces variables continues sont souvent beaucoup plus utiles que le simple fait de se baser sur des codes postaux binarisés, au moins pour des quantités relativement limitées de données.
De plus, les codes postaux sont hiérarchiques ... si vous prenez les deux ou trois premiers chiffres et binarisez en fonction de ceux-ci, vous disposez d'une certaine quantité d'informations régionales, ce qui vous donne plus de données que les fermetures à glissière individuelles.
Comme l'a dit Zach, la latitude et la longitude utilisées peuvent également être utiles, en particulier dans un modèle basé sur un arbre. Pour un modèle linéaire régularisé, vous pouvez utiliser des arbres quadruples, divisant les États-Unis en quatre groupes géographiques, binarisés ceux-ci, puis chacune de ces zones en quatre groupes, et en incluant celles-ci comme variables binaires supplémentaires ... donc pour n régions foliaires totales vous se retrouver avec [(4n - 1) / 3 - 1] variables totales (n pour les plus petites régions, n / 4 pour le niveau supérieur suivant, etc.). Bien sûr, c'est multicollinéaire, c'est pourquoi une régularisation est nécessaire pour ce faire.