J'ai fait des recherches sur la base de données Redshift d'Amazon en tant que futur remplacement possible de notre entrepôt de données. Mon expérience a toujours consisté à utiliser la modélisation dimensionnelle et les méthodes de Ralph Kimball, il était donc un peu étrange de voir que Redshift ne prend pas en charge des fonctionnalités telles que le type de données série pour les colonnes à incrémentation automatique.
Il existe cependant ce récent billet de blog du blog AWS Big Data sur la façon d'optimiser Redshift pour un schéma en étoile: https://blogs.aws.amazon.com/bigdata/post/Tx1WZP38ERPGK5K/Optimizing-for-Star-Schemas -et-entrelacé-tri-sur-Amazon-Redshift
Ma question est de savoir quelle est la meilleure pratique pour charger un schéma en étoile dans Redshift? Je ne trouve pas cette réponse dans la documentation de Redshift.
Je penche vers l'importation de mes fichiers depuis S3 dans des tables intermédiaires, puis j'utilise SQL pour effectuer des transformations telles que des recherches et générer des clés de substitution avant de les insérer dans les tables de destination.
Est-ce ce que font les autres actuellement? Existe-t-il un outil ETL qui en vaut la peine pour vous faciliter la tâche?