J'ai un cours d' apprentissage machine ce semestre et le professeur nous a demandé de trouver un problème du monde réel et de le résoudre par l'une des méthodes d'apprentissage automatique introduites dans la classe, telles que:
- Arbres de décision
- Réseaux de neurones artificiels
- Machines à vecteurs de support
- Apprentissage basé sur les instances ( kNN , LWL )
- Réseaux Bayésiens
- Apprentissage par renforcement
Je suis l'un des fans de stackoverflow et stackexchange et je sais que les vidages de bases de données de ces sites Web sont fournis au public car ils sont géniaux! J'espère que je pourrai trouver un bon défi d'apprentissage automatique à propos de ces bases de données et le résoudre.
Mon idée
Une idée m'est venue à l’esprit est de prédire les étiquettes des questions en fonction des mots entrés dans le corps de la question. Je pense que le réseau bayésien est le bon outil pour apprendre les tags pour une question, mais nécessite plus de recherche. Quoi qu’il en soit, après la phase d’apprentissage lorsque l’utilisateur a fini de saisir la question, certaines balises doivent lui être suggérées.
S'il vous plaît dites-moi :
Je souhaite poser des questions à la communauté des statistiques en tant que personnes expérimentées sur ML:
Pensez-vous que la suggestion de tag est au moins un problème qui a une chance de résoudre? Avez-vous des conseils à ce sujet? Je suis un peu inquiet car stackexchange n'implémente pas encore cette fonctionnalité.
Avez-vous une autre idée / meilleure idée pour le projet ML basé sur la base de données stackexchange? Je trouve vraiment difficile de trouver quelque chose à apprendre des bases de données stackexchange.
Considérations sur les erreurs de base de données: je voudrais souligner que, bien que les bases de données soient énormes et comportent de nombreuses instances, elles ne sont pas parfaites et sont à l’abri des erreurs. La plus évidente est l’âge des utilisateurs qui n’est pas fiable. Même les étiquettes sélectionnées pour la question ne sont pas correctes à 100%. Quoi qu'il en soit, nous devrions prendre en compte le pourcentage d'exactitude des données lors de la sélection d'un problème.
Considération sur le problème lui-même: Mon projet ne devrait pas être sur data-mining
ou quelque chose comme ça. Cela devrait juste être une application des méthodes de ML dans le monde réel.