Considérant un autre critère, je pense que dans certains cas, utiliser Python peut être bien supérieur à R pour Big Data. Je connais l’utilisation généralisée de R dans les supports pédagogiques de science des données et les bonnes bibliothèques d’analyses de données disponibles, mais cela dépend parfois de l’équipe.
D'après mon expérience, pour les personnes déjà familiarisées avec la programmation, l'utilisation de Python offre beaucoup plus de flexibilité et de productivité par rapport à un langage comme R, qui n'est pas aussi bien conçu et puissant que Python en termes de langage de programmation. Pour preuve, dans un cours d’exploration de données de mon université, le meilleur projet final a été écrit en Python, bien que les autres aient accès à la riche bibliothèque d’analyses de données de R. En d'autres termes, la productivité globale (prise en compte du matériel pédagogique, de la documentation, etc.) pour Python est parfois meilleure que celle de R, même en l'absence de bibliothèques d'analyse de données à usage spécifique pour Python. En outre, il existe de bons articles expliquant le rythme rapide de Python dans la science des données: Python Displacing R et Rich Scientific Data Structures in Python. qui pourrait bientôt combler le manque de bibliothèques disponibles pour R.
Une autre raison importante de ne pas utiliser R réside dans le fait de travailler dans le monde réel avec des problèmes de Big Data. Contrairement à des problèmes d'ordre académique, d'autres outils et techniques sont nécessaires, tels que l'analyse, le nettoyage, la visualisation, la mise au rebut de sites Web, etc. sont beaucoup plus faciles en utilisant un langage de programmation à usage général. C'est peut-être pourquoi la langue par défaut utilisée dans de nombreux cours Hadoop (y compris le cours en ligne Udacity ) est Python.
Modifier:
Récemment, la DARPA a également investi 3 millions de dollars pour financer les capacités de traitement et de visualisation des données de Python pour les tâches Big Data, ce qui est clairement un signe de l'avenir de Python dans le Big Data. ( détails )