Je voudrais utiliser des données non atomiques, comme fonctionnalité pour une prédiction. Supposons que j'ai une table avec ces fonctionnalités:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Je voudrais prédire / classer, par exemple, la colonne 2.
Je crée quelque chose pour répondre automatiquement aux questions, à tout type de question, comme "Où est né Foo?" ...
Je fais d'abord une requête à un moteur de recherche, puis j'obtiens des données textuelles en conséquence, puis je fais tout le truc d'analyse (balisage, stemming, analyse, division ...)
Ma première approche a été de faire un tableau, chaque ligne avec une ligne de texte et beaucoup de fonctionnalités, comme "First Word", "Tag of First Word", "Chunks", etc ...
Mais avec cette approche, je manque les relations entre les phrases.
Je voudrais savoir s'il existe un algorithme qui regarde à l'intérieur des structures arborescentes (ou vecteurs) et établit les relations et extrait tout ce qui est pertinent pour la prédiction / classification. Je préférerais connaître une bibliothèque qui fait cela plutôt qu'un algorithme que je dois implémenter.