Peut-être qu'un cas plus simple clarifiera les choses. Disons que nous choisissons un échantillon 1x2 de pixels au lieu de 100x100.
Exemples de pixels de l'image
+----+----+
| x1 | x2 |
+----+----+
Imaginez en traçant notre ensemble d'entraînement, nous avons remarqué qu'il ne peut pas être séparé facilement avec un modèle linéaire, nous avons donc choisi d'ajouter des termes polynomiaux pour mieux ajuster les données.
Disons que nous décidons de construire nos polynômes en incluant toutes les intensités de pixels et tous les multiples possibles qui peuvent être formés à partir d'eux.
Puisque notre matrice est petite, énumérons-les:
X1, x 2, x 21, x 22, x 1× x2, x 2× x1
L'interprétation de la séquence de caractéristiques ci-dessus peut voir qu'il existe un modèle. Les deux premiers termes, groupe 1, sont des caractéristiques constituées uniquement de leur intensité de pixels. Les deux termes suivants après cela, le groupe 2, sont des caractéristiques constituées du carré de leur intensité. Les deux derniers termes, groupe 3, sont le produit de toutes les combinaisons d'intensités de pixels (deux) par paire.
groupe 1:X1, x 2
groupe 2:X21, x 22
groupe 3:X1× x2, x2× x1
Mais attendez, il y a un problème. Si vous regardez les termes du groupe 3 dans la séquence ( et ), vous remarquerez qu'ils sont égaux. Rappelez-vous notre exemple de logement. Imaginez avoir deux caractéristiques x1 = superficie, et x2 = superficie, pour la même maison ... Cela n'a aucun sens! Ok, nous devons donc nous débarrasser de la fonction en double, disons arbitrairement . Maintenant, nous pouvons réécrire la liste des fonctionnalités du groupe trois:x 2 × x 1X1× x2X2× x1X2× x1
groupe 3:X1× x2
Nous comptons les fonctionnalités dans les trois groupes et obtenons 5.
Mais ceci est un exemple de jouet. Permet de dériver une formule générique pour calculer le nombre d'entités. Utilisons nos groupes originaux de fonctionnalités comme point de départ.
s i ze gr o u p 1 + s i ze gr o u p 2 + s i zegr o u p 3 = m × n + m × n + m × n = 3 × m × n
Ah! Mais nous avons dû nous débarrasser du produit en double dans le groupe 3.
Donc, pour compter correctement les fonctionnalités du groupe 3, nous aurons besoin d'un moyen de compter tous les produits par paire uniques dans la matrice. Ce qui peut être fait avec le coefficient binomial, qui est une méthode pour compter tous les sous-groupes uniques possibles de taille k à partir d'un groupe égal ou plus grand de taille n. Donc, pour compter correctement les entités du groupe 3, calculez .C( m × n , 2 )
Notre formule générique serait donc:
m × n + m × n + C( m × n , 2 ) = 2 m × n + C( m × n , 2 )
Permet de l'utiliser pour calculer le nombre de fonctionnalités dans notre exemple de jouet:
2 × 1 × 2 + C( 1 × 2 , 2 ) = 4 + 1 = 5
C'est ça!