Comment LDA, une technique de classification, sert également de technique de réduction de dimensionnalité comme l'ACP

Dans cet article , l'auteur relie l'analyse discriminante linéaire (LDA) à l'analyse en composantes principales (ACP). Avec mes connaissances limitées, je ne suis pas en mesure de comprendre comment LDA peut être quelque peu similaire à PCA.

J'ai toujours pensé que LDA était une forme d'algorithme de classification, similaire à la régression logistique. J'apprécierai un peu d'aide pour comprendre comment LDA est similaire à PCA, c'est-à-dire en quoi est-ce une technique de réduction de dimensionnalité.

— Victor
source

Il n'est pas juste d'appeler LDA uniquement une technique de classification. Il s'agit d'une technique composite en 2 étapes: réduire d'abord la dimensionnalité, puis classer. En tant que réduction de dimensionnalité, elle est supervisée, contrairement à l'ACP. En tant que classification, il considère la probabilité marginale, contrairement à la régression logistique.

— ttnphns

Il est plus clair d'utiliser le terme de «réduction de la dimensionnalité» pour ne traiter que des méthodes d'apprentissage non supervisées, par exemple l'analyse des clusters et de la redondance. LDA est un apprentissage strictement supervisé, ce qui créerait un biais de surajustement s'il était utilisé dans la première étape de la réduction des données.

— Frank Harrell

Une ancienne question très similaire: stats.stackexchange.com/q/22884/3277 .

— ttnphns

Frank, différentes stratégies de, par exemple, de sélection de fonctionnalités, peuvent être appliquées au 1er stade de LDA (y compris l'approche par étapes qui vous répugne :-).

— ttnphns

Comme je l'ai noté dans le commentaire de votre question, l'analyse discriminante est une procédure composite à deux étapes distinctes - la réduction de la dimensionnalité (supervisée) et la phase de classification. À la réduction de dimensionnalité, nous extrayons des fonctions discriminantes qui remplacent les variables explicatives d'origine. Ensuite, nous classons (généralement par l'approche de Bayes) les observations dans les classes en utilisant ces fonctions.

Certaines personnes ont tendance à ne pas reconnaître cette nature claire en deux étapes de la LDA simplement parce qu'elles ne se sont familiarisées qu'avec la LDA avec 2 classes (appelées analyse discriminante de Fisher ). Dans une telle analyse, une seule fonction discriminante existe et la classification est simple, et donc tout peut être expliqué dans un manuel en un seul "passage" sans inviter les concepts de réduction d'espace et de classification de Bayes.

LDA est étroitement liée à MANOVA. Ce dernier est un côté "surface et large" du modèle linéaire (multivarié) tandis que l'image "en profondeur et focalisée" de celui-ci est une analyse de corrélation canonique (CCA). Le fait est que la corrélation entre deux ensembles de variables multivariées n'est pas unidimensionnelle et s'explique par quelques paires de variables "latentes" appelées variables canoniques.

En tant que réduction de dimensionnalité, le LDA est théoriquement un CCA avec deux ensembles de variables, un ensemble étant les variables d'intervalle "explicatives" corrélées et l'autre ensemble étant les variables fictives (ou autres codées par contraste) représentant les $k-1$ $k$ groupes, les classes d'observations.

Dans l'ACC, nous considérons les deux ensembles de variables corrélées X et Y comme égaux en droits. Par conséquent, nous extrayons des variables canoniques des deux côtés, et elles forment des paires: variate 1 de l'ensemble X et variate 1 de l'ensemble Y avec une corrélation canonique entre elles maximale; puis varions 2 de l'ensemble X et varions 2 de l'ensemble Y avec une corrélation canonique plus petite, etc. nous nous intéressons cependant aux variantes canoniques du côté de l'ensemble explicatif. Celles-ci sont appelées fonctions discriminantes canoniques ou discriminantes .

Les discriminants sont ce qui correspond au maximum aux «lignes» de séparation entre les groupes. Discriminant 1 explique la majeure partie de la séparation; le discriminant 2 sélectionne une partie de la séparation laissée inexpliquée en raison de l'orthogonalité de la séparation précédente; descriminat 3 explique encore quelques restes de séparation orthogonaux aux deux précédents, etc. Dans LDA avec variables d'entrée (dimensions) et classes, le nombre possible de discriminants (dimensions réduites) est $p$ $k$ $min(k-1,p)$ voir ).

Pour répéter, c'est en fait l'ACC dans sa nature. LDA avec 3+ classes est même appelé "LDA canonique". Malgré le fait que le CCA et le LDA sont généralement implémentés algorithmiquement quelque peu différemment, du point de vue de l'efficacité du programme, ils sont suffisamment "identiques" pour qu'il soit possible de recalculer les résultats (coefficients, etc.) obtenus dans une procédure sur ceux obtenus dans l'autre. L'essentiel de la spécificité LDA réside dans le domaine du codage des variables catégorielles représentant les groupes. C'est ce même dilemme qui est observé dans (M) ANOVA. Différents schémas de codage conduisent à différentes manières d'interpréter les coefficients.

Étant donné que la LDA (en tant que réduction de la dimensionnalité) peut être comprise comme un cas particulier de l'ACC, vous devez certainement explorer cette réponse en comparant l'ACC avec l'APC et la régression. Le point principal est que le CCA est, dans un sens, plus proche de la régression que du PCA parce que le CCA est une technique supervisée (une combinaison linéaire latente est établie pour corréler avec quelque chose d'extérieur) et le PCA ne l'est pas (une combinaison linéaire latente est dessinée pour résumer l'interne). Ce sont deux branches de la réduction de la dimensionnalité.

En ce qui concerne les mathématiques, vous constaterez peut-être que si les variances des principales composantes correspondent aux valeurs propres du nuage de données (la matrice de covariance entre les variables), les variances des discriminants ne sont pas si clairement liées aux valeurs propres qui sont produites dans LDA. La raison en est que dans LDA, les valeurs propres ne résument pas la forme du nuage de données; ils se rapportent plutôt à la quantité abstraite du rapport de la variation entre les classes à la variation à l'intérieur des classes dans le nuage.

Ainsi, les composants principaux maximisent la variance et les discriminants maximisent la séparation des classes; un cas simple où un PC ne parvient pas à faire la distinction entre les classes assez bien mais une boîte discriminante est ces images. Lorsqu'ils sont tracés sous forme de lignes dans l'espace de caractéristique d'origine, les discriminants n'apparaissent généralement pas orthogonaux (étant néanmoins non corrélés), mais les PC le font.

Note de bas de page pour méticuleux. Comment, dans leurs résultats, LDA est exactement lié à l'ACC . Pour répéter: si vous faites LDA avec des pvariables et des kclasses et que vous faites CCA avec Set1 comme ces pvariables et Set2 commek-1 des variables indicatrices factices représentant des groupes (en fait, pas nécessairement des variables indicatrices - d'autres types de variables de contraste, comme l' écart ou Helmert - feront l'affaire ), alors les résultats sont équivalents en ce qui concerne les variables canoniques extraites pour Set1 - elles correspondent directement aux fonctions discriminantes extraites dans le LDA. Quelle est la relation exacte, cependant?

$j$ $j$

$\frac {\text {CCA standardized coefficient}}{\text {LDA raw coefficient}} = \frac {\text {CCA canonical variate value}}{\text {LDA discriminant value}} = \sqrt \frac {\text {pooled within class variance in the variate }}{\text {pooled within class variance in the discriminant}}$

La "variance regroupée dans la classe" est la moyenne pondérée des variances de groupe avec poids = n-1dans un groupe. En discriminant, cette quantité est $1$ (lire dans le lien d'algèbre LDA), et donc le coefficient de proportionnalité pour passer aux résultats CCA à partir des résultats LDA est simplement

\sqrt{regroupés dans la variance de classe dans la variée}

$\sqrt {\text {pooled within class variance in the variate}}$ . Mais comme la variable canonique est normalisée dans l’ensemble de l’échantillon, ce coefficient est égal à la

st. deviation of the discriminant

$\text {st. deviation of the discriminant}$ (qui est standardisé au sein des groupes). Donc, il suffit de diviser les résultats LDA (coefficients et scores) par le discriminant

σ

$\sigma$ pour obtenir les résultats du CCA.

La différence entre CCA et LDA est due au fait que LDA "sait" qu'il existe des classes (groupes): vous indiquez directement les groupes pour calculer l'intérieur et entre les matrices de dispersion. Cela rend les calculs plus rapides et les résultats plus pratiques pour une classification ultérieure par discriminants. CCA, d'autre part, n'est pas au courant des classes et traite les données comme si elles étaient toutes des variables continues - ce qui est plus général mais un mode de calcul plus lent. Mais les résultats sont équivalents et j'ai montré comment.

Jusqu'à présent, il a été sous-entendu que les variables muettes k-1sont entrées CCA de la manière typique, c'est-à-dire centrées (comme les variables de Set1). On pourrait se demander, est-il possible de saisir tous les knuls et de ne pas les centrer (pour échapper à la singularité)? Oui, c'est possible, mais probablement moins pratique. Il apparaîtra une variable canonique supplémentaire de valeur propre nulle, ses coefficients devraient être jetés. Les autres résultats restent valables. Sauf les df s pour tester la signification des corrélations canoniques. Df pour la 1ère corrélation sera celui p*kqui est faux et le vrai df, comme dans LDA, l'est p*(k-1).

— ttnphns
source