Mes élèves font cela comme leur projet de classe. Quelques équipes ont atteint les 70% pour la précision, avec de très petits échantillons, ce qui n'est pas mal.
Disons que vous avez des données comme celle-ci:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Vous souhaitez prédire le retour en fonction du texte.
C'est ce qu'on appelle l'exploration de texte.
En fin de compte, vous créez une énorme matrice comme celle-ci:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Cela a une colonne pour chaque mot unique, une ligne pour chaque retour et un score pondéré pour chaque mot. Le score est souvent le score TFIDF, ou fréquence relative du mot dans le document.
Ensuite, vous exécutez une régression et voyez si vous pouvez prédire quels mots prédisent le retour. Vous devrez probablement utiliser PCA en premier.
Livre: Fundamentals of Predictive Text Mining, Weiss
Logiciel: RapidMiner avec Text Plugin ou R
Vous devriez également faire une recherche sur Google Scholar et lire les tenants et aboutissants.
Vous pouvez voir ma série de vidéos d'exploration de texte ici