Reconnaissance de l'activité humaine à l'aide d'un problème de jeu de données de smartphone

Je suis nouveau dans cette communauté et j'espère que ma question s'intégrera bien ici. Dans le cadre de mon cours d'analyse de données de premier cycle, j'ai choisi de faire le projet sur la reconnaissance de l'activité humaine à l'aide d'ensembles de données de smartphone. En ce qui me concerne, ce sujet concerne l'apprentissage automatique et les machines vectorielles de support. Je ne connais pas encore bien ces technologies et j'aurai donc besoin d'aide.

J'ai décidé de suivre cette idée de projet http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (premier projet en haut) L'objectif du projet est de déterminer quelle activité une personne est s'engager (par exemple, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) à partir de données enregistrées par un smartphone (Samsung Galaxy S II) sur la taille du sujet. À l'aide de son accéléromètre et de son gyroscope intégrés, les données incluent l'accélération linéaire 3 axes et la vitesse angulaire 3 axes à un taux constant de 50 Hz.

L'ensemble des données est donné dans un dossier avec une description et des étiquettes de fonctionnalités. Les données sont divisées pour les fichiers «test» et «train» dans lesquels les données sont représentées dans ce format:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

Et ce n'est qu'un très petit échantillon de ce que contient le fichier.

Je ne sais pas vraiment ce que ces données représentent et comment peuvent être interprétées. Aussi pour l'analyse, la classification et le regroupement des données, quels outils dois-je utiliser? Existe-t-il un moyen de mettre ces données en Excel avec des étiquettes incluses et, par exemple, d'utiliser R ou python pour extraire des exemples de données et y travailler?

Tous les conseils / astuces seraient très appréciés.

— Jakubee
source

Réponses:

Les définitions des ensembles de données sont sur la page ici:

Informations sur les attributs en bas

ou vous pouvez voir à l'intérieur du dossier ZIP le fichier nommé activity_labels, qui contient vos en-têtes de colonne, assurez-vous de lire attentivement le fichier README, il contient de bonnes informations. Vous pouvez facilement importer un .csvfichier dans R à l'aide de la read.csvcommande.

Par exemple, si vous nommez votre fichier, samsungdatavous pouvez ouvrir R et exécuter cette commande:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Ou si vous êtes déjà à l'intérieur du répertoire de travail dans R, vous pouvez simplement exécuter ce qui suit

data <- read.csv("samsungdata.csv", header = TRUE)

Où le nom datapeut être changé comme vous voulez appeler votre ensemble de données.

— MCP_infiltrator
source

Je vois. J'ai étudié le fichier README, mais je n'arrive toujours pas à comprendre comment les données elles-mêmes peuvent être lues. Par exemple, le train / X_train.txt'file représente l'ensemble de formation (les données d'exemple que j'ai montrées dans le post proviennent de ce fichier).

— Jakubee

Il me semble que l'ensemble de données est assez large, il y a 561 variables par ligne qui sont répertoriées à l'intérieur du fichier features.txt. Je pense que c'est à cela que vous faites référence.

— MCP_infiltrator

Ainsi, chacune des variables du fichier «features» correspond à chaque colonne du fichier «x-test.txt», par exemple, ou ai-je tort?

— Jakubee

Voilà comment je le prends. D'après ce que j'ai pu recueillir dans le fichier README, c'est ce que contient le fichier.

— MCP_infiltrator

@Jakubee Oui. Il y a 561 lignes / noms de variables dans le features.txtfichier et 561 colonnes dans le X_train.txtfichier, une pour chaque variable.

— Marco13

Il semble que ceci (ou un ensemble de données très similaire) soit utilisé pour les cours Coursera. Le nettoyage de cet ensemble de données est une tâche d' obtention et de nettoyage des données , mais il est également utilisé pour l'étude de cas pour l' analyse des données exploratoires . La vidéo de cette étude de cas est disponible en vidéos pour la semaine 4 du didacticiel EDA. Cela pourrait vous aider à commencer avec ces données.

— Damian Melniczuk
source