Vous recherchez des options pour ETL spatial (Extraire, Transformer, Charger)?


33

Je suis intéressé par les avantages et les inconvénients de divers outils spatiaux ETL (extraire, transformer, charger). Si vous avez utilisé les éléments énumérés ici (ou avez ajouté les vôtres), je recherche vos opinions et expériences. En particulier, j'aimerais voir des comparaisons d'utilisabilité de:

Il n'est pas nécessaire de passer en revue tous les logiciels mentionnés. Si vous avez de l'expérience avec un seul, il sera très utile de prendre une décision quant à la direction à prendre.

Exemple: Je cherche à créer une fonction de conversion de schéma qui me permettra de sélectionner la couche d'entrée, de créer une traduction et de générer un nouveau schéma prédéfini. De manière optimale, après avoir créé le script de traduction, j'aimerais disposer d'un formulaire interactif dans lequel je peux "mapper" les champs de ma couche d'entrée sur la couche de sortie (c'est-à-dire que la couche de sortie aura un champ appelé "Adresse", comment s'appelle-t-il? dans la couche d'entrée?)

Certains ont été mentionnés dans le Q & R à Quels outils sont disponibles pour télécharger des données gis dans une base de données?

Et voici quelques articles liés que j'ai trouvés.

Réponses:


17

Cette question a été convertie en wiki de communauté et en wiki bloqué car il s'agit d'un exemple de question qui cherche une liste de réponses et semble être assez populaire pour le protéger de la fermeture. Cela devrait être traité comme un cas spécial et ne devrait pas être considéré comme le type de question qui est encouragé sur ce site ou sur tout autre site Stack Exchange, mais si vous souhaitez apporter plus de contenu, n'hésitez pas à le faire en modifiant cette réponse. .


Je ne parlerai que de ce que j'ai vu dans un contexte professionnel. Un de mes étudiants a travaillé avec une entreprise chargée de recevoir, valider et intégrer d’énormes quantités de données spatiales, provenant d’une source bien connue (TeleAtlas), dans leur SIG. Elle a utilisé plusieurs flux de travail utilisant FME, effectuant des vérifications et des transformations très complexes à la volée, d'un format à un autre, telles que la sélection des fonctionnalités, la vérification de la topologie, la suppression des doublons, etc. Le flux de travail a ensuite été en mesure de traiter automatiquement les ensembles de données entrants.

J'étais membre d'un jury pour un rapport de stage (désolé, l'étudiant a décrit un autre flux de travail FME comme celui-ci, mais cette fois pour valider les jeux de données régionaux envoyés au niveau national pour intégration. à la base de données nationale des risques. La principale différence est que, dans ce dernier exemple, les jeux de données étaient dans des formats de fichiers très divers, raster et vecteur, échelles et styles.

Enfin, j'ai testé Spatial Data Integrator, l'ETL open source basé sur Talend Open Studio. Les fonctionnalités étaient nombreuses, mais moins nombreuses que celles de FME, mais je pense que les principales différences concernaient la documentation et la convivialité de la création du flux de travail. J'étais souvent obligé de modifier le code source Java des composants de workflow. Mais c’était une version antérieure de SDI, et les lacunes que je décris ici sont plutôt courantes avec les projets open source à leur début, et nous ne pouvons pas comparer au même niveau les logiciels propriétaires bien rodés et les jeunes prétendants au code source libre.


24

Pour un projet récent utilisant plusieurs Go de données spatiales, j'ai commencé le chargement / la reprojection de données avec FME. Cela a bien fonctionné, mais la courbe d'apprentissage est longue.

À la fin du projet, j'utilisais des scripts Python pour automatiser les processus de ré-analyse. FME peut être scripté, mais si vous avez les bases de Python, pourquoi compliquer les choses davantage? Python vous offre une flexibilité totale et avec chaque script d'importation écrit, vos compétences en Python s'améliorent.

J'ai trouvé les packages Python suivants inestimables lorsque vous travaillez avec des transformations de données:

  • PyProj
  • GeoPy
  • Galbé
  • xlrd pour importer des données à partir de feuilles de calcul Excel
  • pyobdc pour se connecter aux bases de données
  • SQLAlchemy pour exécuter des instructions SQL et travailler avec des bases de données

Si vous avez une expérience de développeur / programmation, je vous recommanderais d'utiliser Python, si vous préférez utiliser une interface graphique (qui peut également générer de belles images pour la documentation), je recommanderais FME.


11

J'adore l'open-source mais FME l'emporte facilement contre les ETL opensource du mieux que je peux dire. En fait, la maintenance et l’assistance sont relativement peu coûteuses (du moins par rapport à la plupart des autres solutions d’entreprise que nous proposons).

Si vous recherchez des traductions entre formats, OGR peut le faire (avec une certaine tuyauterie dans GDAL pour les transformations). Bien sûr, c'est la ligne de commande .

Pour une modélisation visuelle allant au-delà de celles répertoriées dans le commentaire "possible en double", ils travaillent sur un constructeur de modèle QGIS / SEXTANTE; vidéo de validation de principe : https://www.youtube.com/watch?v=LTUu-I2ouqU

(Non, je ne travaille pas pour Safe, je suis juste un client relativement satisfait).


Le lien vidéo est cassé. Peux-tu le réparer?
GeoStoneMarten le


6

J'ai comparé divers outils il y a environ un an, qui contient également la plupart des options mentionnées dans ce fil.

Comme réponse plus directe, j'utilise beaucoup FME en raison de sa polyvalence. Cependant, lorsque je travaille avec des structures de données complexes telles que CityGML, INSPIRE GML ou des modèles de base de données plus grands, j'utilise HALE , une application open source développée pour ETL et en particulier pour l'harmonisation.

entrez la description de l'image ici

Actuellement (à partir de la version 2.9.0), il se compare à FME (2014 SP1) comme suit:

  • HALE a un nombre inférieur de formats (HALE: 20, FME 200) et de transformateurs (HALE: 30+, FME: plus de 400), mais un très bon support pour tous les dialectes XML / GML
  • HALE prévisualise les résultats de la transformation de manière interactive dans une carte et dans des vues sous forme de tableaux, et valide directement la sortie
  • HALE est généralement beaucoup plus rapide, car le contexte local de chaque attribut est conservé, ce qui vous évite beaucoup de FeatureMergers.
  • HALE est Open Source et en production depuis 2010
  • HALE utilise une interface de mappage déclarative, ce qui réduit le nombre d'entrées utilisateur requises par rapport aux approches procédurales.

Notez que je fais partie de l'équipe HALE depuis plusieurs années.


Comment pensez-vous qu'il empile aujourd'hui vs FME? Particulièrement pour les flux de données Web et geoRSS?
Dr.YSG

@ Dr.YSG la maintenance de hale a été reprise par la société wetransform GmbH en 2015; une équipe dédiée est donc désormais derrière son développement. Il y a eu un développement important au cours des quatre dernières années. Les modifications sont documentées dans les notes de publication de GitHub. Il prend en charge le traitement des données JSON / GeoJSON. GeoRSS est un format XML simple qui réutilise certaines parties du GML. Il est donc également entièrement supporté. Pour traiter automatiquement les flux GeoRSS, vous devez vous pencher sur hale-cli (l'interface de ligne de commande et d'autres API).
tr_xsdi

5

Si vous regardez le lien en double de blah238, vous trouverez plus d'informations. Je dirais que Talend Open Studio et Pentaho GeoKettle sont les solutions open source les plus importantes que l’on puisse choisir. Parmi ces deux Talend, plus qu’à ma connaissance, ETL et GeoKettle sont plus faciles à utiliser.

Ma municipalité s'apprête à donner à GeoKettle le soin d'écrire un dialecte GML mis au point par l'association suédoise des autorités locales et des régions (SALAR) et nous avons besoin de ce format pour fournir des géodonnées à différents centres d'intérêt commerciaux.

Je crois que GeoKettle supporte OGR / GDAL à partir de la version 2.0.


5

FME est probablement le meilleur produit à utiliser dans cet espace. Après cela, c'est GDAL / OGR. Geokettle est un autre produit open source dans cet espace - http://www.spatialytics.org/projects/geokettle/ bien que je ne l'ait jamais utilisé dans la colère (avoir la chance d'avoir les deux autres produits mentionnés).

Si aucune de ces options génériques ne fonctionne, vous souhaiterez probablement utiliser un outil de conversion spécifique.


3

J'ai utilisé Geokettle à des fins religieuses pour un petit projet nécessitant une courbe d'apprentissage élevée, sauf si vous utilisiez une interface utilisateur Eclipse ... Vraiment puissant, compilé avec GDAL1.10, il prend en charge tous les types géographiques. Ce que j'ai aimé, c'est sa prise en charge des données stockées et des données via des services. ... Je l'ai utilisé pour recréer et synchroniser des jeux de données de serveur ArcGIS sur une instance postgis locale via ESRI json vers GeoJSON ... Le workflow peut créer des conditions et une validation le configurer pour interroger le n ° d'objet et sur la base de cette compilation d'un csv prédéfini itérer une demande de publication pour 500 fonctionnalités à la fois en fonction de la première requête a été en mesure de consolider toutes les demandes en un seul fichier geojson, exécutez ogr2ogr pour charger sur postgis, même des postgis scriptés, pour exécuter vide et indexer avec celui-ci ... Non affilié uniquement un fan

Vous pouvez l'exécuter et mapper un flux de travail sur l'interface graphique du bureau et utiliser les outils du serveur Pentahos pour le configurer sur Hadoop et l'exécuter en tant que script ou tâche cron.


3

QGIS (au moins depuis la version 2.6 actuelle) dispose également d’un constructeur de modèles intégré. Grâce à cette boîte à outils, vous pouvez accéder à des centaines d'algorythmes (GDAL, GRASS, SAGA, vectortools, etc.). Vous pouvez également ajouter votre propre script.

Je dois avouer que je ne l'ai pas beaucoup utilisé, mais si je cherchais un constructeur de modèles, je le considérerais digne d'enquête.


0

[AVERTISSEMENT: Une promotion gratuite d'un produit auquel je participe]

Nous travaillons sur un outil pour faire l’ETL. Son goût est similaire à celui de FME, mais il est conçu pour des tâches plus simples et nécessite moins d’expertise. Certains détails peuvent être trouvés sur https://www.geoactive.it il suffit de chercher des informations sur Data Dragon. Cette application utilise GDAL / OGR dans le back-end et nous reportons tous les ajouts que nous apportons à GDAL / OGR.

Pour un usage commercial, vous devez en acheter un, mais nous avons des licences académiques disponibles gratuitement. Si vous souhaitez l’utiliser pour un message d’étude, envoyez-moi un message et je vous fournirai plus de détails.

Nous en sommes au début de la publication, de sorte qu'il reste encore quelques bugs mineurs, alors soyez gentil avec nous.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.