Je suis un R
programmeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS.
Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant ma carrière dans R
les autres langages de script / Web et ne possédant que des connaissances de base, je me suis senti quelque peu insuffisant dans deux domaines clés:
- Manque de connaissance solide de la théorie de la programmation.
- Manque de niveau de compétence concurrentiel dans des langages plus rapides et plus largement utilisés tels que
C
,C++
etJava
qui pourraient être utilisés pour augmenter la vitesse des calculs de pipeline et de Big Data, ainsi que pour créer des produits DS / data pouvant être plus facilement développés en rapide des scripts back-end ou des applications autonomes.
La solution est simple bien sûr: allez apprendre la programmation. C’est ce que j’ai fait en s’inscrivant à certains cours (actuellement, la programmation en C).
Cependant, maintenant que je commence à aborder les problèmes n ° 1 et n ° 2 ci-dessus, je me demande à quel point les langues sont-elles viables C
et C++
pour Data Science? ".
Par exemple, je peux très bien déplacer les données et interagir avec les utilisateurs, mais qu'en est-il de la régression avancée, de l'apprentissage automatique, de l'exploration de texte et d'autres opérations statistiques plus avancées?
Alors. peut C
faire le travail - quels outils sont disponibles pour les statistiques avancées, le ML, l'IA et d'autres domaines de la science des données? Ou dois-je perdre l'essentiel de l'efficacité obtenue par la programmation en C
faisant appel à des R
scripts ou à d'autres langages?
La meilleure ressource que j’ai trouvée jusqu’à présent en C est une bibliothèque appelée Shark , qui donne C
/ C++
la possibilité d’utiliser des machines à vecteurs de support, une régression linéaire (non régressive et d’autres régressions avancées telles que le probit multinomial, etc.) et une liste restreinte d’autres logiciels. (super mais) fonctions statistiques.