Espace de données, espace variable, espace d'observation, espace modèle (par exemple en régression linéaire)

Supposons que nous ayons la matrice de données , qui est par- , et le vecteur d'étiquette , qui est -par-un. Ici, chaque ligne de la matrice est une observation, et chaque colonne correspond à une dimension / variable. (supposez ) $\mathbf{X}$ $n$ $p$ $Y$ $n$ $n>p$

Alors qu'est-ce que data space, variable space, observation space, model spacesignifie?

L'espace recouvert par le vecteur colonne est-il un espace -D (dégénéré) puisqu'il a coordonnées tout en étant de rang , appelé espace variable puisqu'il est recouvert par un vecteur variable? Ou est-ce appelé espace d'observation puisque chaque dimension / coordonnée correspond à une observation? $n$ $n$ $p$

Et qu'en est-il de l'espace couvert par les vecteurs de ligne?

— user3813057
source

Ce ne sont pas des termes universellement connus. Avez-vous une référence? Sinon, nous devinons peut-être ce qu'ils sont censés signifier.

— whuber

Je n'ai pas de référence. J'ai entendu une fois mon professeur le dire il y a quelque temps.

— user3813057

Je suis à peu près sûr, alors, que votre professeur a défini ces termes à un moment donné. Peut-être qu'ils sont dans vos notes de classe ....

— whuber

Ces termes apparaissent dans certains livres sur les statistiques multivariées. Supposons que vous ayez des nindividus par pmatrice de données de caractéristiques quantitatives. Ensuite, vous pouvez tracer des individus sous forme de points dans l'espace où les axes sont les entités. Ce sera un nuage de points classique, alias un espace variable . Nous disons que le nuage d'individus couvre l'espace défini par les axes-caractéristiques.

Vous pourriez aussi bien concevoir le nuage de points, les points étant les variables et les axes les individus. Absolument comme les précédents, seulement à l'envers. Il s'agira de l' intrigue du sujet (ou de l'intrigue de l'observation) avec les variables qui le couvrent, les individus le définissant.

Notez que si (comme souvent) n>palors, dans le deuxième cas, seules certaines pdimensions hors des ndimensions ne sont pas redondantes; cela signifie que vous pouvez et pouvez dessiner les ppoints variables sur le ptracé dimensionnel . De plus, par tradition, les points variables sont généralement liés à l'origine et apparaissent donc comme des vecteurs (flèches). Nous utilisons la représentation de l'espace sujet principalement pour montrer les relations entre les variables, donc nous supprimons les axes-sujets et décrivons les points sous forme de flèches, pour plus de commodité. $^1$

Si les entités (colonnes de la matrice de données) étaient centrées avant de tracer le graphique de l'espace sujet, alors les cosinus des angles entre les vecteurs variables sont égaux à leurs corrélations de Pearson, tandis que les longueurs des vecteurs sont égales aux normes des variables (somme des carrés des racines ) ou les écarts types (s'ils sont divisés par le df ).

L'espace variable et l'espace sujet sont les deux faces d'une même médaille, ils sont le même espace analytique euclidien, présenté uniquement comme un miroir. Ils partagent les mêmes propriétés, telles que les valeurs propres et les vecteurs propres différents de zéro. Il est donc possible de tracer les sujets et les variables côte à côte comme des points dans l'espace des axes principaux (ou autre base orthogonale) de cet espace analytique, - ce tracé commun est appelé biplot . Je ne sais pas exactement ce que signifie le terme «espace de données» - s'il signifie quelque chose de spécifique, je suppose que c'est cet espace analytique commun dont l'espace sujet et l'espace variable sont les deux hypostases.

Quelques liens locaux:

Images montrant la représentation dans l'espace sujet des composants principaux (ACP), la régression linéaire et l' analyse factorielle , encore une fois la régression . Comparez cela avec la représentation traditionnelle à espace variable (nuage de points) de la régression et de l'ACP .
Explication théorique du biplot . Une auto-étude expliquant la structure du biplot dans l'ACP .
Voir également un article essayant de comprendre si l'on peut résoudre géométriquement la tâche PCA sur le tracé de l'espace sujet (il semble que les PC définissent l'ellipse; mais comment trouver cette ellipse unique?).

$^1$ n=5p=2

— ttnphns
source

+1. Mais je ne sais pas quelle est la signification mathématique exacte de dire que la variable et l'espace sujet sont "le même espace analytique euclidien".

— amoeba

@amoeba, Sans être mathématique dans la réponse, j'espérais que cela serait intuitivement transparent (en particulier pour les experts en algèbre linéaire comme vous). Par exemple, dans la décomposition en valeurs singulières de la matrice de données (svd, sur laquelle le biplot est basé) - quel espace caractérisent les valeurs propres et les vecteurs propres gauche et droit? N'est-ce pas le même espace analytique, qui pourrait être aménagé de diverses manières, - parmi lesquels se trouvent (i) des lignes et des colonnes comme points par axes principaux comme axes; (ii) des lignes en tant que points et des colonnes en tant qu'axes; (iii) des colonnes en points par des lignes en axes?

— ttnphns