Notez que je fais tout en R.
Le problème est le suivant:
Fondamentalement, j'ai une liste de CV (CV). Certains candidats auront une expérience de travail avant et d'autres non. Le but ici est de: sur la base du texte de leur CV, je souhaite les classer dans différents secteurs d'emploi. Je suis particulièrement dans les cas où les candidats n'ont aucune expérience / sont étudiants, et je veux faire une prédiction pour classer les secteurs d'emploi auxquels ce candidat appartiendra le plus probablement après l'obtention du diplôme.
Question 1: Je connais les algorithmes d'apprentissage automatique. Cependant, je n'ai jamais fait de PNL auparavant. Je suis tombé sur l'allocation de Dirichlet latente sur Internet. Cependant, je ne sais pas si c'est la meilleure approche pour résoudre mon problème.
Mon idée originale: en faire un problème d'apprentissage supervisé . Supposons que nous ayons déjà une grande quantité de données étiquetées, ce qui signifie que nous avons correctement étiqueté les secteurs d'emploi pour une liste de candidats. Nous formons le modèle à l'aide d'algorithmes ML (c'est-à-dire le plus proche voisin ...) et alimentons ces données non étiquetées , qui sont des candidats qui n'ont aucune expérience de travail / sont des étudiants, et essayons de prédire à quel secteur d'emploi ils appartiendront.
Mettre à jour la question 2: Serait-ce une bonne idée de créer un fichier texte en extrayant tout dans un CV et d'imprimer ces données dans le fichier texte, afin que chaque CV soit associé à un fichier texte, qui contient des chaînes non structurées, puis nous appliqué des techniques d'exploration de texte aux fichiers texte et structuré les données ou même créé une matrice de fréquence des termes utilisés à partir des fichiers texte? Par exemple, le fichier texte peut ressembler à ceci:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
C'est ce que j'entendais par «non structuré», c'est-à-dire tout réduire en une seule chaîne de ligne.
Cette approche est-elle mauvaise? Veuillez me corriger si vous pensez que mon approche est fausse.
Question 3: La partie délicate est: comment identifier et extraire les mots clés ? Vous utilisez le tm
package dans R? sur quel algorithme le tm
package est-il basé? Dois-je utiliser des algorithmes NLP? Si oui, quels algorithmes dois-je étudier? Veuillez m'indiquer quelques bonnes ressources à consulter également.
Toutes les idées seraient géniales.