Besoin d'un ensemble de données de référence GPS Trajectory?


13

Je recherche un ensemble de données GPS de référence, disponible gratuitement à des fins de recherche. J'ai trouvé le jeu de données GeoLife GPS Trajectories de Microsoft Research, mais je le trouve un peu incomplet.

Ce dont j'ai besoin, ce sont les données d'activité GPS d'une personne, comme en tuples (latitude, longitude, date), suivies pendant au moins plusieurs mois, de préférence en continu. J'aimerais également que les enregistrements soient non clairsemés; au plus 1 minute entre chaque enregistrement.

J'apprécierais vraiment que vous me dirigiez vers un ensemble de données aussi fiable.


2
Cet ensemble de données doit-il être d'un être humain? (La façon dont vous avez tout formulé jusqu'à présent implique oui, mais je ne pense pas que cela ait été explicitement déclaré.)
Dan S.

Réponses:


17

Je pense que votre meilleure chance sera de vous suivre. Si l'idée vous dérange, c'est la raison pour laquelle vous ne trouverez ces données publiques nulle part.



4

Je ne retiendrais pas mon souffle. Des données d'une telle précision seraient une entreprise énorme et auraient d'énormes implications sur la confidentialité (même si ce n'est que pour 30 jours pour une personne qui inclurait 43200 points de données (si elles étaient enregistrées toutes les minutes), et identifieraient sans aucun doute le lieu de résidence).

Si vous êtes intéressé par des questions de fond que de telles données pourraient contenir, ces conseils ne vous seront d'aucune utilité. Mais si vous êtes uniquement intéressé par un certain type de stratégie analytique pour gérer des données aussi massives, vous devriez pouvoir simuler simplement des données à cette échelle pour répondre à vos besoins. Pour simuler des données, je vous suggère de jeter un œil au programme statistique R, au spatstat et au package de voyage en particulier (ainsi qu'à tous les modules spatiaux de R).

Je serais sceptique, même les données de suivi des animaux répondraient à vos besoins en points de données dans des intervalles aussi courts. Je pourrais énumérer quelques articles que j'ai lus qui utilisent des données de téléphone portable pour estimer les modèles d'activité humaine, mais aucun que j'ai lu ne se rapprocherait de cette durée ou ne mesurerait l'activité des individus aussi fréquemment.


4

Un choix consiste à rédiger un contrat et à embaucher beaucoup de personnes. Fournissez-leur des unités GPS configurées pour prendre des mesures fournissant les données dont vous avez besoin, suffisamment de batteries pour durer le contrat et des instructions (branchez-le avec ce câble pour télécharger tous les soirs, envoyez-moi ce fichier par e-mail, etc.)

Vous auriez certainement besoin d'écrire dans le contrat comment vous restreindriez la distribution des données et de les anonymiser pour les protéger (en fournissant peut-être un rayon d'exclusion d'environ un demi-mile autour des points que la personne indique comme privés), et vous pourriez même pensez à souscrire une assurance contre la perte. Si les traces de l'activité des gens devenaient publiques, elles seraient remplies d'informations telles que "Je pars au travail tous les matins à 7h00 et rentre chez moi tous les soirs à 19h00", et une intrigue ressemblerait à un astérisque géant centré sur leur maison en disant "voler cet endroit entre 8h00 et 18h00". Vous pouvez voir pourquoi vous devez vous soucier de la confidentialité et de la sécurité.

Si vous y réfléchissez, vous demandez des données très coûteuses. Et sans un ensemble statistiquement assez grand, cela va avoir une valeur douteuse. Pensez à la façon dont les traces seraient différentes entre un travailleur de la construction (un nouveau trajet répétitif après chaque bâtiment achevé), un transporteur postal (un itinéraire très répétitif et très sinueux), un employé de bureau (un itinéraire direct principalement répétitif) et une dépanneuse conducteur (nouveaux itinéraires en permanence.) Le statut socioéconomique pourrait avoir un impact sur les traces: des revenus plus faibles pourraient suivre davantage les lignes de transport en commun et voyager moins. Les parents d'enfants d'âge scolaire pourraient avoir un kilométrage moyen plus élevé après le travail. Sans parler du gars qui conduit les voitures Google Street View.

Aucune de ces traces n'est susceptible de recouper l'une des autres de manière significative.

Le nombre de styles uniques est probablement limité, mais suffisamment élevé pour nécessiter un budget important. Et ce serait dans une seule ville.

Vous pourrez peut-être obtenir un ensemble de données plus petit (moins cher) si vous définissez mieux vos objectifs. Si vous essayez de quantifier les différents types de modèles, vous échantillonnez peut-être un large éventail de personnes dans diverses villes. Si vous essayez de déterminer qui bénéficierait du transport en commun ou où poser des couloirs de trains de banlieue, il vaut probablement mieux compter les voitures sur les différentes routes autour de la zone que vous prévoyez de desservir et mener des enquêtes.


2

Je recherche également le type exact de jeu de données que vous recherchez. Malheureusement, jusqu'à présent, je n'en ai pas encore trouvé. Malgré les données de GeoLife, une autre source que j'ai trouvée est CRAWDAD . Le site a un journal GPS des taxis de San Francisco et aussi des piétons de New York. Malheureusement, pour les piétons de New York, ils ne fournissent que des coordonnées relatives plutôt que lat / lon.


2

Il existe de nombreux sujets de recherche où les données nécessaires pour répondre à la question ne sont pas disponibles pour des raisons morales, et des expériences qui dépassent ces limites peuvent conduire à des restrictions futures, comme ce fut le cas avec l' expérience Milgram . Plus récemment, AOL a dû extraire un corpus de requêtes de recherche en raison de problèmes de confidentialité, et le seul ensemble de données fiable dont nous disposons sur les habitudes de messagerie provenait de l'essai Enron .

Ainsi, bien qu'il soit tout à fait techniquement possible d'obtenir un tel ensemble de données de trajectoire, il peut ne jamais être pratique en raison des implications sur la confidentialité. Comme d'autres réponses l'ont mentionné, les ensembles de données relatifs, l'agrégation sur des individus ou la simulation peuvent tous être de meilleures approches pour répondre à votre question, tout en évitant le problème de confidentialité.



2

Le projet Open PFLOW offre:

ensemble de données ouvertes pour le mouvement de masse typique des personnes dans les zones urbaines

La zone métropolitaine de Tokyo est disponible et la zone métropolitaine de Chukyo semble être en préparation.

Les détails peuvent être trouvés dans une publication récente:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: Création et évaluation d'un ensemble de données ouvertes pour les mouvements de masse de personnes typiques dans les zones urbaines, Transportation Research Part C: Emerging Technologies (2017) Volume 85, Pages 249-267.


L'ensemble de données de trajectoire T-Drive est une découverte récente. Il offre:

une trajectoire d'une semaine de 10 357 taxis. Le nombre total de points dans cet ensemble de données est d'environ 15 millions et la distance totale des trajectoires atteint 9 millions de kilomètres.


Bien qu'il ne s'agisse pas de mouvements humains, la société Liquid Robotics met à disposition un ensemble de données intéressant de son défi PacX . Les données sur la localisation et les relevés des capteurs environnementaux de quatre robots planeurs naviguant dans l'océan Pacifique sont disponibles en téléchargement . Plus d'informations sur le projet (vraiment cool) sur le blog , via WIRED et cette conférence .


Une autre option pour résoudre les problèmes de confidentialité serait d'utiliser les données de suivi des animaux. Je suppose que la protection des données sera moins un problème ici. Comme avantage, vous pourrez toujours tester vos logiciels / méthodes avec des données de mouvement réelles. L'inconvénient peut être que si votre application nécessite des mouvements «spécifiques à l'homme» - ils peuvent ne pas correspondre à votre objectif.

Jetez un œil aux sites Web Movebank ou DRYAD pour vérifier si certaines de leurs données pourraient s'intégrer dans votre projet.


En ce qui concerne les données iphone, mentionnées par Matthew , vous pouvez jeter un œil aux projets crowflow et openpaths . Peut-être existe-t-il un moyen d'obtenir des somedata à travers eux? Mise à jour: les deux liens semblent être morts maintenant.


Encore une autre option est la partie spatiale des données de taxi de Chris Whong à New York . Ils ne fournissent que des lieux de prise en charge et de restitution, mais le volume (11 Go!) Et les informations contextuelles (tarifs, passagers, etc.) les rendent vraiment attractifs ( téléchargement alternatif , plus d'informations sur les problèmes de confidentialité soulevés par les données).


Le post d'Urška Demšar sur son récent article sur «L'analyse de la mobilité humaine à partir des données des mouvements volontaires et des informations contextuelles» promet:

Il y aura également un ensemble gratuit de données de trajectoires GPS volontaires liées à ce document bientôt disponible. Restez à l'écoute.

( plus d'infos )

Mise à jour: le papier mentionne que des données seront disponibles sur CRAWDAD mentionnées par @ejel mais je ne les ai pas trouvées là-bas.


Une autre option pourrait être de créer vous-même un jeu de données synthétique . Si vous avez besoin d'inspiration, consultez l'article récent de van Dijk J (2018) Identifier les points de déplacement d'activité à partir des données GPS avec plusieurs fenêtres mobiles Ordinateurs, environnement et systèmes urbains ( lien ). Plus de détails sont fournis dans l'annexe du papier et le code et un exemple de jeu de données sont disponibles sur github .


1

Tahina Expedition (Google Earth Blog) http://www.tahinaexpedition.com/map navigue depuis presque toute l'année dernière.

KML peut être traité http://maps.google.com/maps/ms?source=embed&hl=en&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [était une piste gps désormais convertie en kml]


@Mapperez - Merci Mapperez, mais ce dont j'ai besoin est un peu différent. J'aimerais avoir les points GPS enregistrés au jour le jour, minute par minute, d'une personne à terre. Une personne ayant une routine quotidienne (un peu une routine) - comme se lève, va au travail, y passe des heures, fait du shopping, rentre à la maison, répète.
Murat

1

Les gens fournissent gratuitement ces données à Google 24 heures sur 24. Ça s'appelle Latitude. Peut-être qu'ils le partageront aussi généreusement que leurs utilisateurs l'ont partagé avec eux.


1
J'espère certainement qu'ils ne le feront pas. Je suis tout à fait sûr qu'ils ne seraient pas autorisés à divulguer des données au niveau requis par l'application de @ Murat.
underdark
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.