Modélisation des prix de location - quelle méthode d'interpolation utiliser?

13

J'ai un ensemble de données nationales sur environ 1,4 million de ménages. Là, j'ai des informations sur le loyer, la taille (nombre de pièces et m2) et quelques caractéristiques supplémentaires de chaque ménage.

Je voudrais utiliser ces données pour créer une surface de prix des loyers pour l'ensemble du pays et utiliser ces informations comme approximation des valeurs des ~ 1,5 million de ménages restants qui sont propriétaires ou ne disposent pas d'informations sur les loyers.

Quelques questions ici:

Une telle approche est-elle appropriée pour ce type de problème?

Quelle méthode d'interpolation serait la plus appropriée à utiliser ici?

Serait-il également possible de tenir compte, par exemple, de la taille du ménage?

Je suis sur ArcGIS 9.3 avec une licence ArcInfo.

— radek
source

1

Il semble que les systèmes d'évaluation de masse assistée par ordinateur (CAMA) devraient faire quelque chose de similaire. Je me demande comment ils le gèrent. en.wikipedia.org/wiki/Computer_Assisted_Mass_Appraisal

— Kirk Kuykendall

10

L'idée est bonne mais la mise en œuvre proposée peut être trop simpliste pour être crédible. Les loyers sont la propriété des systèmes économiques. En plus d'être influencés par l'emplacement, ils sont liés à d'autres variables économiques de manière importante: état de l'économie locale (et nationale), prix locaux du logement, disponibilité du capital, taux d'emploi, etc. Pour faire du bon travail, vous avez besoin d'un modèle économétrique . Il pourrait être avantageux de disposer de certains termes de décalage spatial , mais avant d'envisager de telles complications, vous devez inclure bon nombre de ces covariables économiques.

Cela dit, votre capacité à réussir dépend des relations entre les données dont vous disposez et les loyers que vous souhaitez prévoir. Si vos données sont un échantillon représentatif de l'ensemble du pays et sont géographiquement dispersées - considérez les maisons comme des raisins secs sur un cookie et que vous avez des données sur tous les autres raisins secs dans le cookie - alors un modèle relativement simple pourrait suffire. Si vos données sont géographiquement ciblées - peut-être avez-vous des informations sur les raisins secs sur le côté droit du cookie et que vous souhaitez faire des prédictions pour les raisins secs sur le côté gauche - alors le problème est plus difficile.

Un bon point de départ serait d'adapter un modèle économétrique linéaire conventionnel des loyers aux caractéristiques des ménages et aux caractéristiques spatiales brutes (telles que les politiques fiscales des États ou des comtés), de calculer les résidus et de commencer à explorer spatialement les résidus (en utilisant la variographie , les lissages spatiaux du noyau , etc.) pour saisir les effets géographiques.

Un logiciel adapté est disponible en tant que add-ons à R .

— whuber
source

@whubber Le lien vers le document décrivant la variographie semble mort. Y a-t-il une chance de le mettre à jour?

— radek

1

Merci, @radek. Il est étonnamment difficile de trouver une exposition de variographie sur le Web qui soit à la fois introductive et précise et qui ne soit pas seulement un manuel de logiciel. J'ai trouvé une thèse de doctorat récente qui - à en juger par son résumé et son introduction - semble claire et approfondie et part d'un point relativement élémentaire.

— whuber

7

Comme une introduction très douce aux sujets sur la régression spatiale, je recommande fortement de consulter le classeur GeoDa (les chapitres 22 à 25 seront les plus intéressants). Même si vous ne souhaitez pas utiliser le logiciel, il s'agit d'un aperçu très complet de la régression spatiale.

Les fonctions de régression intégrées dans ArcMap gèreront-elles autant de données (pas qu'un logiciel aurait du mal avec autant de points?)

— Andy W
source

3

(+1) 1,4 million de points n'est pas un problème pour la régression. (L'effort dans les algorithmes des moindres carrés, par exemple, est généralement proportionnel au cube du nombre de variables. La configuration des équations ne nécessite qu'un seul balayage rapide à travers l'ensemble de données.) Le vrai problème est que 1,4 million de cas auront un contenu riche et structure détaillée: une bonne analyse serait extrêmement laborieuse. (Cet ensemble de données pourrait générer des charges de thèses de doctorat en économie, j'en suis sûr.) L'astuce consiste donc à faire tout le travail nécessaire pour obtenir des réponses suffisamment précises et défendables pour la tâche à accomplir.

— whuber

3

J'ai vu des travaux similaires effectués pour les prix des maisons en utilisant la modélisation hédonique. Voir http://scholar.google.com/scholar?hl=en&q=hedonic+price+geography pour des exemples.

— Ian Turton
source

2

(+1) Je suis d'accord que la littérature sur les modèles hédoniques de tarification des maisons est largement applicable à cette question. J'ai recadré en suggérant cela, car en tant qu'individu qui n'est pas familier avec la régression, le travail de tous ces économétriciens peut être décourageant (je sais que je le fais parfois!) En théorie, ce serait une bonne littérature à vérifier, en particulier pour les covariables. d'intérêt.

— Andy W