Les interactions sont explicitement nécessaires dans les modèles de régression car la formule ne comprend aucune interaction en soi. Plus précisément, un modèle de régression sera toujours linéaire en entrée, alors qu'une interaction est une combinaison non linéaire des caractéristiques.Xje∗ Xj
La façon la plus simple de voir cela est à travers le problème XOR, un modèle de régression sans aucune interaction ne peut pas résoudre ce problème, car il nécessite une combinaison non linéaire.
Les KNN et SVM, d'autre part (et de nombreux autres modèles également) sont des approximateurs de fonctions universelles. Cela signifie qu'ils peuvent non seulement combiner leurs entrées de manière linéaire, mais également de toute manière non linéaire possible. À condition de disposer de suffisamment de couches ou d'un noyau approprié, ils peuvent "créer" leurs propres interactions, exactement comme ils en ont besoin. Si vous savez ou prévoyez que des interactions spécifiques sont importantes, vous pouvez néanmoins les utiliser comme entrées pour guider les modèles dans la bonne direction.
De même, les modèles arborescents peuvent être interprétés comme consistant uniquement en interactions. Fondamentalement, une division dans un modèle arborescent crée une interaction spécifique avec toutes les variables précédentes.
Donc, pour décider des interactions à utiliser, pour des modèles suffisamment "puissants" (c'est-à-dire ceux qui sont des approximateurs de fonctions universelles), vous n'en avez pas besoin et vous pouvez laisser le modèle faire sa propre magie. Pour les autres modèles, cela dépend. Il existe certaines techniques disponibles pour guider la décision, comme CHAID ou la régression pas à pas. CHAID fonctionne également avec un grand nombre de fonctionnalités, pour une régression pas à pas, il peut se perdre dans le nombre d'interactions possibles. Étant donné que si vous avez entités, il y a interactions possibles (en comptant non seulement les interactions bidirectionnelles mais aussi d'ordre supérieur).N2N