Ayant récemment commencé à m'enseigner moi-même l'apprentissage automatique et l'analyse des données, je me retrouve à frapper un mur de briques sur la nécessité de créer et d'interroger de grands ensembles de données. Je voudrais prendre des données que j'ai agrégées dans ma vie professionnelle et personnelle et les analyser, mais je ne suis pas sûr de la meilleure façon de procéder comme suit:
Comment dois-je stocker ces données? Exceller? SQL? ??
Quelle est la bonne façon pour un débutant de commencer à essayer d'analyser ces données? Je suis un programmeur informatique professionnel donc la complexité n'est pas dans l'écriture de programmes mais plus ou moins spécifique au domaine de l'analyse de données.
EDIT: Toutes mes excuses pour mon imprécision, lorsque vous commencez à apprendre quelque chose, il est difficile de savoir ce que vous ne savez pas, vous savez? ;)
Cela dit, mon objectif est d'appliquer cela à deux sujets principaux:
Mesures de l'équipe logicielle (pensez à la vitesse agile, à la quantification du risque, à la probabilité d'une itération réussie compte tenu du nombre de points d'histoire)
Apprentissage automatique (par exemple, des exceptions système se sont produites dans un ensemble donné de modules, quelle est la probabilité qu'un module lève une exception sur le terrain, combien cela coûtera-t-il, que peuvent me dire les données sur les modules clés à améliorer qui obtiendront me le meilleur rapport qualité-prix, prédisez quelle partie du système l'utilisateur voudra utiliser ensuite pour commencer à charger les données, etc.).