On m'a confié cette tâche pour analyser les journaux du serveur de notre application qui contient les journaux d'exceptions, les journaux des événements, les journaux de base de données, etc. Je suis nouveau dans l'apprentissage automatique, nous utilisons Spark avec recherche élastique et Sparks MLlib (ou PredictionIO). Le résultat serait de pouvoir prédire sur la base des journaux d'exceptions collectés pour pouvoir prédire quel utilisateur est le plus susceptible de provoquer la prochaine exception et à quelle fonctionnalité (et un tas d'autres choses pour suivre et améliorer l'optimisation de l'application).
J'ai réussi à ingérer des données d'ElasticSearch dans spark et à créer des DataFrames et à cartographier les données nécessaires. Ce que je voudrais savoir, c'est comment aborder l'aspect Machine Learning de ma mise en œuvre. J'ai parcouru des articles et des articles qui parlent du prétraitement des données, de la formation des modèles de données et de la création d'étiquettes, puis de la génération de prédictions.
Mes questions sont
Comment aborder la transformation des données de journal existantes en vecteurs numériques qui peuvent être utilisés pour des ensembles de données à former.
Quels algorithmes dois-je utiliser pour former mon ensemble de données (avec les connaissances limitées que j'ai rassemblées ces derniers jours, je pensais à mettre en œuvre une régression linéaire, veuillez suggérer quelle mise en œuvre serait la meilleure)
Je cherche juste des suggestions sur la façon d'aborder ce problème.
Merci.