Réponses:
Je n'ai jamais rencontré ce terme auparavant. Je ne sais pas si cela propagerait la lumière ou l'obscurité dans l'un ou l'autre domaine des statistiques: ceux qui sont l'apprentissage automatique (où les distinctions supervisées et non supervisées sont au cœur de la résolution des problèmes) et les statistiques inférentielles (où la régression, l'analyse de confirmation et les NHST sont le plus souvent utilisés).
Lorsque ces deux philosophies se chevauchent, la majorité de la régression et de la terminologie associée est jetée dans un cadre strictement supervisé. Cependant, je pense que de nombreux concepts existants dans l'apprentissage non supervisé sont étroitement liés aux approches basées sur la régression, en particulier lorsque vous parcourez naïvement chaque classe ou fonctionnalité en tant que résultat et regroupez les résultats. Un exemple de ceci est l'ACP et l'analyse de corrélation bivariée. En appliquant la meilleure régression de sous-ensemble de manière itérative sur un certain nombre de variables, vous pouvez effectuer une sorte très complexe d'estimation de réseau, comme on le suppose dans la modélisation d'équations structurelles (strictement au sens de l'EPT). Cela, pour moi, semble être un problème d'apprentissage non supervisé avec la régression.
Cependant, les estimations des paramètres de régression ne sont pas réflexives. Pour la régression linéaire simple, régressant sur vous donnera des résultats différents, inférence différentes, et des estimations différentes (même pas nécessairement inverse), que X sur Y . Dans mon esprit, ce manque de commutativité rend la plupart des applications de régression naïves inadmissibles aux problèmes d'apprentissage non supervisés.
La chose la plus proche à laquelle je peux penser est une petite magie noire qui a remué les gens quand elle a été annoncée il y a quelques années, mais je ne pense pas qu'elle ait vraiment gagné en popularité dans la communauté. Les auteurs ont développé une statistique qu'ils ont appelée le «coefficient d'information maximal (MIC)». L'idée générale derrière leur méthode est de prendre des données hautement dimensionnelles, de tracer chaque variable par rapport à toutes les autres variables par paires, puis d'appliquer un algorithme intéressant de regroupement de fenêtres à chaque tracé (qui calcule la MIC pour ces deux variables) pour déterminer s'il y a potentiellement une relation entre les deux variables. La technique est censée être robuste pour identifier des relations arbitrairement structurées , pas seulement linéaires.
La technique cible des paires de variables, mais je suis sûr qu'elle pourrait être étendue pour étudier les relations multivariées. Le principal problème serait que vous deviez exécuter la technique sur beaucoup plus de combinaisons de variables car vous permettez des permutations de plus en plus de variables. J'imagine que cela prend probablement un certain temps uniquement avec des paires: essayer d'utiliser cela sur des données dimensionnelles même à distance et considérer des relations plus complexes que des paires de variables deviendrait rapidement insoluble.
Référence au document Detecting Novel Associations in Large Datasets (2011)
Cette question m'est venue à l'esprit lors de mes recherches sur la différence entre les méthodes supervisées et non supervisées. Issu d'un contexte économétrique, je préfère penser dans les modèles, ce qui a ralenti ma compréhension car la plupart des publications sur l'apprentissage machine que j'ai rencontrées se concentrent sur les méthodes.
Ce que j'ai trouvé jusqu'à présent, c'est qu'une distinction stricte doit être faite entre clustering
(non supervisé) et classification
(supervisé). L'analogie continue de la relation entre ces modèles de conception serait principal component analysis
(non supervisée) versus linear regression
(supervisée).
Cependant, je dirais que la relation entre le regroupement et la classification est purement fortuite; il n'existe que lorsque nous interprétons les deux modèles de modèle comme décrivant une relation géométrique, que je trouve inutilement restrictive. Toutes les méthodes non supervisées que je connais (k-means, algorithmes de carte élastique tels que kohonen / neural gas, DBSCAN, PCA) peuvent également être interprétées comme des modèles de variables latentes. Dans le cas des méthodes de clustering, cela reviendrait à considérer l'appartenance à un cluster comme étant dans un état, qui peut être codé comme un modèle de variable latente en introduisant des variables d'état.
Étant donné l'interprétation en tant que modèles de variables latentes, vous êtes libre de spécifier tout modèle, éventuellement non linéaire, qui décrit vos caractéristiques en termes de variables latentes continues.