Permettez-moi de commencer par l'ordre inverse de l'extraction des entités et de la raison pour laquelle il est nécessaire de sélectionner des entités et de réduire les dimensions.
Commençons par l'utilisation de l'extraction de caractéristiques, principalement à des fins de classification. La classification est le processus permettant de décider à quelle catégorie appartient un objet particulier. Il comporte deux phases i) la phase d'apprentissage, où, étant donné les données ou les objets, leurs propriétés sont apprises à l'aide d'un processus (extraction de caractéristiques); ii) la phase de test, où l'objet inconnu est classé en utilisant les caractéristiques apprises lors de la phase précédente (de formation).
L'extraction de caractéristiques, comme son nom l'indique, étant donné que l'objectif des données est de trouver le modèle sous-jacent. Ce modèle sous-jacent qui est terme en tant que caractéristique correspondant à ces données respectives. Il existe différentes méthodologies existantes pour l'extraction de caractéristiques, telles que Support Vector Machine (SVM).
Maintenant, l’extraction de caractéristiques devrait générer des caractéristiques qui devraient être
- robuste
- discriminant
- ensemble optimal de fonctionnalités
Sélection des fonctionnalités: un ensemble de données spécifique peut être représenté par une seule fonctionnalité ou un ensemble de fonctionnalités. Dans le processus de classification, un système est formé pour au moins deux cours. Le système de formation générera donc soit une fonctionnalité unique, soit un ensemble de fonctionnalités. Ces caractéristiques doivent posséder les propriétés indiquées ci-dessus.
Le problème survient lorsqu'il existe un ensemble de fonctionnalités pour chaque classe et qu'il existe une corrélation entre certaines des fonctionnalités. Cela implique que parmi les entités en corrélation, une ou quelques-unes suffisent à la représentation, et c’est là que la sélection des caractéristiques entre en scène. En outre, ces fonctionnalités doivent être stockées, mais l'augmentation de la mémoire requise pour l'ensemble des fonctionnalités augmente également.
Vient ensuite la réduction de la dimensionnalité qui n’est autre que la partie du processus de sélection des caractéristiques. C'est le processus de choix de l'ensemble optimal de fonctionnalités qui décrit le mieux les données. Il existe de nombreuses techniques identiques, telles que l'analyse en composantes principales, l'analyse en composantes indépendantes, la factorisation matricielle, etc.