Quel algorithme d'apprentissage automatique peut être utilisé pour identifier des modèles dans un ensemble de données des performances de cache d'un CPU?

9

J'ai besoin d'un algorithme d'apprentissage automatique pour identifier les modèles dans un ensemble de données (enregistré dans un fichier CSV) qui contient des détails sur les performances du cache d'un processeur. Plus précisément, l'ensemble de données contient des colonnes telles que Readhits, Readmissou Writehits.

Les modèles que l'algorithme identifie devraient être utiles des manières suivantes.

aider l'utilisateur à augmenter la performance de la charge de travail la prochaine fois,
aider à identifier tout problème en fonction des fonctionnalités, ou
aider l'utilisateur à prédire les valeurs de données futures ou les événements futurs qui peuvent se produire en fonction des modèles.

Quels algorithmes ML puis-je utiliser?

— aAAAAAAa
source

0

Les machines Boltzmann restreintes (RBM) peuvent identifier des modèles dans un fichier CSV sans que l'utilisateur ne spécifie de conditions. Ils sont bien adaptés pour générer des "représentations distribuées et graduées" d'un "ensemble complexe de caractéristiques composant de vraies données de grande dimension est crucial pour atteindre des performances élevées dans les tâches d'apprentissage automatique". ¹

Étant donné que le format CSV est spécifiquement conçu pour représenter des instances dans des lignes et un ensemble statique d'attributs dans des colonnes, la configuration de la formation est simple. Si l'objectif est d'identifier des modèles temporels, une stratégie de fenêtrage peut être nécessaire.

Les K-RBM sont une fusion des approches k-mean avec les RBM. Le choix de l'approche a beaucoup à voir avec les types de modèles recherchés. Le terme modèle peut s'appliquer aux tendances simples des nombres dans le temps, aux modèles courants trouvés dans les colonnes textuelles ou aux modèles complexes déduits de plusieurs colonnes.

Références

[1] Émergence de représentations compositionnelles dans les machines Boltzmann restreintes , J. Tubiana, R. Monasson, 2017)

[2] Apprentissage de plusieurs sous-espaces non linéaires à l'aide de K-RBM , Siddhartha Chandra, Shailesh Kumar et CV Jawahar

— Douglas Daseeco
source

0

Je choisirais personnellement le clustering k-means. Son conçu pour des problèmes comme celui-ci.

— William Scott
source

0

J'ai besoin d'un algorithme d'apprentissage automatique pour identifier les modèles dans un fichier CSV

Vous voulez faire un apprentissage non supervisé . La définition Wikipedia de la même chose est:

L'apprentissage automatique non supervisé est la tâche d'apprentissage automatique consistant à déduire une fonction pour décrire une structure cachée à partir de données "sans étiquette" (une classification ou une catégorisation n'est pas incluse dans les observations).

Je vous recommanderai de parcourir la liste des algorithmes d'apprentissage non supervisés ici et d'utiliser celui qui répondrait à vos besoins.

Si vous débutez, je vous recommande de commencer par apprendre l' algorithme de clustering K-means .

— Dawny33
source

0

Tout d'abord, vous devez classer chaque bloc du fichier CSV et l'étiqueter en fonction de la situation actuelle, comme A) situation optimale B) critique.

Ensuite, vous regroupez vos données avec un algorithme d'apprentissage non supervisé, comme SOM ou k-means, puis vous classifiez simplement les classes que vous obtiendrez.

— simonepi
source

0

Vous recherchez essentiellement un apprentissage non supervisé (UL). Il existe de nombreuses techniques UL, mais je ne suis pas sûr que vous en trouverez une qui fasse exactement ce que vous voulez sans aucune intervention de l'utilisateur. Pourtant, si vous parcourez la littérature sur ces approches, vous pourriez bien trouver quelque chose d'utile.

Une option est DBSCAN , un algorithme de clustering très populaire qui ne nécessite pas que l'utilisateur entre un nombre cible initial de clusters (quelque chose que la plupart des algorithmes de cluster nécessitent). Mais même alors, vous devez toujours donner les valeurs de l'algorithme pour epsilon(une distance utilisée dans le calcul des grappes) et minPts(le nombre minimum de points requis pour constituer une région "dense").

Vous pouvez également consulter des cartes auto-organisées , une approche de l'apprentissage non supervisé pour les réseaux de neurones.

Certains autres termes de recherche qui pourraient vous conduire dans une direction utile incluent «l'exploration de données» et «la découverte de connaissances dans les bases de données» (KDD).

— crime mental
source