Que sont les polynômes orthogonaux multivariés calculés dans R?

Les polynômes orthogonaux dans un ensemble univarié de points sont des polynômes qui produisent des valeurs sur ces points d'une manière telle que son produit scalaire et sa corrélation par paires sont nuls. R peut produire des polynômes orthogonaux avec fonction poly .

La même fonction a une variante polym qui produit des polynômes orthogonaux sur un ensemble de points multivariés. Quoi qu'il en soit, les polynômes résultants ne sont pas orthogonaux dans le sens d'avoir une corrélation nulle par paire. En fait, puisque les polynômes de premier ordre sont censés être les seules variables d'origine, les polynômes de premier ordre ne seront orthogonaux que si les variables d'origine ne sont pas corrélées.

Ensuite, mes questions sont:

Quels sont les polynômes orthogonaux multivariés calculés par polym dans R? Sont-ils simplement le produit des polynômes orthogonaux univariés? Pour quoi sont-ils utilisés?
Peut-il exister de vrais polynômes orthogonaux multivariés? Existe-t-il un moyen simple de les produire? Dans R? Sont-ils réellement utilisés dans la régression?

Mise à jour

En réponse au commentaire de Superpronker, je donne un exemple de ce que je veux dire avec des polynômes non corrélés:

> x<-rnorm(10000)
> cor(cbind(poly(x,degree=3)))
              1             2             3
1  1.000000e+00 -6.809725e-17  2.253577e-18
2 -6.809725e-17  1.000000e+00 -2.765115e-17
3  2.253577e-18 -2.765115e-17  1.000000e+00

La fonction Poly renvoie les polynômes orthogonaux évalués en points x (ici 10 000 points pour chaque polynôme). La corrélation entre les valeurs sur différents polynômes est nulle (avec une erreur numérique).

Lors de l'utilisation de polynômes multivariés, les corrélations sont différentes de zéro:

> x<-rnorm(1000)
> y<-rnorm(1000)
> cor(cbind(polym(x,y,degree=2)))
              1.0           2.0           0.1         1.1           0.2
1.0  1.000000e+00  2.351107e-17  2.803716e-02 -0.02838553  3.802363e-02
2.0  2.351107e-17  1.000000e+00 -1.899282e-02  0.10336693 -8.205039e-04
0.1  2.803716e-02 -1.899282e-02  1.000000e+00  0.05426440  5.974827e-17
1.1 -2.838553e-02  1.033669e-01  5.426440e-02  1.00000000  8.415630e-02
0.2  3.802363e-02 -8.205039e-04  5.974827e-17  0.08415630  1.000000e+00

Par conséquent, je ne comprends pas dans quel sens ces polynômes bivariés sont orthogonaux.

Update 2

Je veux clarifier la signification des "polynômes orthogonaux" utilisés dans la régression parce que ce contexte peut être en quelque sorte trompeur lors de l'application des idées des polynômes orthogonaux à intervalles connectés - comme dans le commentaire du dernier Superpronker.

Je cite la régression pratique de Julian J. Faraway et Anova en utilisant R pages 101 et 102:

Les polynômes orthogonaux contournent ce problème en définissant
$z_{1} = a_{1} + b_{1} x$ $z_1=a_1+b_1x$ $z_{2} = a_{2} + b_{2} x + c_{2} x^{2}$ $z_2= a_2+b_2x+c_2x^2$ $z_{3} = a_{3} + b_{3} x + c_{3} x^{2} + d_{3} x^{3}$ $z_3= a_3+b_3x+c_3x^2+d_3x^3$ etc. où les coefficients a, b, c ... sont choisis de telle sorte que $z_i^T·z_j=0$ quand $i \neq j$ . Les z sont appelés polynômes orthogonaux.

Par un léger abus de langage, l'auteur utilise ici $z_i$ fois pour le polynôme (en fonction) et pour le vecteur des valeurs que le polynôme prend aux points de l'ensemble $x$ . Ou peut-être que ce n'est même pas du tout un abus de langage parce que depuis le début du livre, $x$ est le prédicteur (par exemple l'ensemble des valeurs prises par le prédicteur).

Cette signification des polynômes orthogonaux n'est pas réellement différente des polynômes orthogonaux sur un intervalle. Nous pouvons définir des polynômes orthogonaux de la manière habituelle (en utilisant des intégrales) sur tout ensemble mesurable avec n'importe quelle fonction de mesure. Ici, nous avons un ensemble fini ( $x$ ) et nous utilisons un produit scalaire au lieu d'intégrale, mais ce sont toujours des polynômes orthogonaux si nous prenons notre fonction de mesure comme le delta de Dirac dans les points de notre ensemble fini.

Et par rapport à la corrélation: produit scalaire des vecteurs orthogonaux dans $R^n$ (comme l'image d'un vecteur orthogonal sur un ensemble fini). Si le produit scalaire de deux vecteurs est nul, la covariance est nulle, et si la covariance est nulle, la corrélation est nulle. Dans le contexte des modèles linéaires, il est très utile de relier «orthogonal» et «non corrélé», comme dans «conception orthogonale d'expériences».

r multiple-regression polynomial orthogonal

— Pere
source

Que voulez-vous dire lorsque vous dites que les polynômes en un point ne sont pas corrélés? Les variables stochastiques peuvent être non corrélées; les vecteurs peuvent avoir un produit scalaire égal à zéro.

— Superpronker

Lorsqu'ils sont évalués à un ensemble fini de points, nous obtenons un ensemble de valeurs pour chaque polynôme. Nous pouvons calculer la corrélation entre ces ensembles de valeurs et pour les polynômes orthogonaux, nous obtenons une corrélation nulle. Étant donné que la corrélation est liée à la covariance et que la covariance est liée au produit scalaire, je suppose que la corrélation nulle et le produit scalaire nul sont équivalents.

— Pere

Désolé si je me méprends, mais je ne suis toujours pas. La corrélation est entre deux vecteurs où vous avez, disons, N observations de chacun. Voulez-vous dire que le terme du premier et du deuxième ordre ne doit pas être corrélé? Ensuite, cela dépend des points où vous évaluez. Sur [-1; 1] ils ne le sont pas mais sur [0; 1] ils le sont. Je pense que votre intuition pour la relation entre orthogonalité et non corrélation n'est pas précise.

— Superpronker

J'ai mis à jour la question avec cela, bien que dans le contexte de la régression, l'orthogonalité et la non-corrélation soient presque synonymes. J'ai lié une source. Et oui, cela dépend des points que nous évaluons. Le premier argument d'ordre poly est le vecteur de points que nous évaluons et la première étape de mes exemples est la génération d'un vecteur de points à évaluer. En régression, nous nous intéressons aux vecteurs orthogonaux dans les valeurs de notre prédicteur.

— Pere

Je pense que l'abus de notation est plus problématique qu'il n'y paraît; l'orthogonalité de deux polynômes n'est pas définie comme le produit scalaire étant nul, peu importe où vous évaluez les polynômes. C'est plutôt que deux termes polynomiaux (d'ordres différents) devraient avoir un produit scalaire nul dans le "sens de la fonction"; et les produits scalaires pour les fonctions sont généralement des intégrales dans une certaine mesure (c'est-à-dire la fonction de pondération). Voir en.m.wikipedia.org/wiki/Orthogonal_polynomials . Si j'ai raison, cela explique la confusion. Mais sur wiki il y a un commentaire sur la relation aux moments.

— Superpronker

Explorons ce qui se passe. Je suis sûr que vous connaissez déjà la plupart des éléments suivants, mais pour établir la notation et les définitions et pour clarifier les idées, je couvrirai les bases de la régression polynomiale avant de répondre à la question. Si vous le souhaitez, passez à la rubrique "Qu'est R- ce que" à environ deux tiers du chemin dans ce message, puis revenez en arrière pour toutes les définitions dont vous pourriez avoir besoin.

Le réglage

Nous considérons une matrice de modèle $n\times k$ $\mathbb X$ de variables explicatives potentielles dans une sorte de régression. Cela signifie que nous pensons que les colonnes de $\mathbb X$ sont $n$ vecteurs $X_1, X_2, \ldots, X_k$ et que nous en formerons des combinaisons linéaires, $\beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k,$ pour prédire ou estimer une réponse.

Parfois, une régression peut être améliorée en introduisant des colonnes supplémentaires créées en multipliant les différentes colonnes de $X$ unes par les autres, coefficient par coefficient. Ces produits sont appelés "monômes" et peuvent s'écrire comme

X_{1}^{d_{1}} X_{2}^{d_{2}} \dots X_{k}^{d_{k}}

$X_1^{d_1} X_2^{d_2} \cdots X_k^{d_k}$

où chaque "puissance" $d_i$ est égale ou supérieure à zéro, représentant le nombre de fois où chaque $X_1$ apparaît dans le produit. Notez que $X^0$ est un vecteur $n$ de coefficients constants ( $1$ ) et $X^1=X$ lui-même. Ainsi, en tant que vecteurs (monômes) génèrent un espace vectoriel qui inclut l'espace de colonne initiale de $\mathbb X.$ La possibilité qu'il s'agisse d'un espace vectoriel plus grand donne à cette procédure plus de latitude pour modéliser la réponse avec des combinaisons linéaires.

Nous avons l'intention de remplacer la matrice modèle d'origine $\mathbb X$ par une collection de combinaisons linéaires de monômes. Lorsque le degré d'au moins un de ces monômes dépasse $1,$ on parle de régression polynomiale.

Grades des polynômes

Le degré d'un monôme est la somme de ses puissances, $d_1+d_2+\ldots+d_k.$ Le degré d'une combinaison linéaire de monômes (un "polynôme") est le plus grand degré parmi les termes monômes avec des coefficients non nuls. Le degré a une signification intrinsèque, car lorsque vous modifiez la base de l'espace vectoriel d'origine, chaque vecteur $X_i$ est nouvellement représenté par une combinaison linéaire de tous les vecteurs; monômes $X_1^{d_1} X_2^{d_2} \cdots X_k^{d_k}$ deviennent ainsi des polynômes du même degré; et par conséquent le degré de tout polynôme est inchangé.

Le degré fournit une "gradation" naturelle à cette algèbre polynomiale: l'espace vectoriel généré par toutes les combinaisons linéaires de monômes en $X$ de degré jusqu'à et y compris $d+1,$ appelé les "polynômes de [ou jusqu'à] degré $d+1$ en $X,$ "étend l'espace vectoriel des polynômes jusqu'au degré $d$ en $X.$

Utilisations de la régression polynomiale

Souvent, la régression polynomiale est exploratoire dans le sens où nous ne savons pas au départ quels monômes inclure. Le processus de création de nouvelles matrices de modèles à partir de monômes et de réajustement de la régression peut devoir être répété plusieurs fois, peut-être un nombre astronomique de fois dans certains paramètres d'apprentissage automatique.

Les principaux problèmes de cette approche sont

Les monétaires introduisent souvent des quantités problématiques de «multicolinéarité» dans la nouvelle matrice de modèle, principalement parce que les puissances d' une seule variable ont tendance à être fortement colinéaires. (La colinéarité entre les puissances de deux variables différentes est imprévisible, car elle dépend de la façon dont ces variables sont liées, et est donc moins prévisible.)
La modification d'une seule colonne de la matrice du modèle, ou l'introduction d'une nouvelle ou la suppression d'une, peut nécessiter un "redémarrage à froid" de la procédure de régression, ce qui peut prendre un certain temps pour le calcul.

Les classements des algèbres polynomiales permettent de surmonter ces deux problèmes.

Polynômes orthogonaux dans une variable

Étant donné un vecteur colonne unique $X,$ un ensemble de "polynômes orthogonaux" pour $X$ est une séquence de vecteurs colonnes $p_0(X), p_1(X), p_2(X),\ldots$ $X$ $X$

$d=0, 1, 2, \ldots,$ $p_0(X), p_1(X), \ldots, p_d(X)$ $X^0, X^1, \ldots, X^d.$ $X^0$ $n$ $X^1$ $X$ lui-même.)
$p_i(X)$ $i\ne j,$
$p_{i} (X)^{'} p_{j} (X) = 0.$ $p_i(X)^\prime p_j(X) = 0.$

P = (\begin{matrix} p_{0} (X) & p_{1} (X) & \dots & p_{d} (X) \end{matrix})

$\mathbb{P} = \pmatrix{p_0(X) & p_1(X) & \cdots & p_d(X)}$

P^{'} P = I_{d + 1} .

$\mathbb{P}^\prime \mathbb{P} = \mathbb{I}_{d+1}.$

P^{'} P

$\mathbb{P}^\prime \mathbb{P}$

I_{d + 1}

$\mathbb{I}_{d+1}$ est lui-même, cela représente un énorme gain de calcul.

L'orthodormalité détermine très près la $p_i(X).$

$p_0(X),$ $n$ $\mathbf{1}=(1,1,\ldots,1)^\prime$ $\pm \sqrt{1/n}\mathbf{1}.$
$p_1(X),$ $\mathbf{1}.$ $X$ $\mathbf{1},$ $\hat X = \bar{X}\mathbf{1}.$ $\epsilon = X - \hat X$ $p_1(X) = \pm \left(1/||\epsilon||\right)\,\epsilon.$

...

$p_{d+1}(X)$ $X^{d+1}$ $p_0(X), p_1(X), \ldots, p_d(X)$ $X.$

$X^0, X^1, \ldots, X_d, \ldots.$

Cette construction produit une séquence de colonnes supplémentaires à envisager d'inclure dans la matrice du modèle. La régression polynomiale dans une variable procède donc généralement en ajoutant des éléments de cette séquence un par un, dans l'ordre, jusqu'à ce qu'aucune autre amélioration de la régression ne soit obtenue. Parce que chaque nouvelle colonne est orthogonale aux précédentes, l'inclure ne modifie aucune des estimations de coefficient précédentes. Cela permet une procédure efficace et facilement interprétable.

Polynômes à plusieurs variables

La régression exploratoire (ainsi que l'ajustement du modèle) procède généralement en considérant d'abord les variables (originales) à inclure dans un modèle; évaluer ensuite si ces variables pourraient être augmentées en incluant diverses transformations de celles-ci, telles que les monômes; puis introduire des «interactions» formées à partir des produits de ces variables et de leurs ré-expressions.

$\mathbb X$ séparément. Après avoir sélectionné un degré approprié pour chaque colonne, vous introduisez ensuite des interactions.

À ce stade, certaines parties du programme univarié tombent en panne. Quelle séquence d'interactions appliqueriez-vous, une par une, jusqu'à ce qu'un modèle approprié soit identifié? De plus, maintenant que nous sommes vraiment entrés dans le domaine de l'analyse multivariable, le nombre d'options disponibles et leur complexité croissante suggèrent qu'il peut y avoir des rendements décroissants dans la construction d'une séquence de polynômes orthogonaux multivariés. Si, cependant, vous aviez une telle séquence en tête, vous pourriez la calculer en utilisant une décomposition QR.

Qu'est `R`- ce que

Les logiciels de régression polynomiale ont donc tendance à se concentrer sur le calcul de séquences polynomiales orthogonales univariées . Il est caractéristique Rd'étendre ce support aussi automatiquement que possible à des groupes de polynômes univariés. C'est ce qui polyfait. (Son compagnon polymest essentiellement le même code, avec moins de cloches et de sifflets; les deux fonctions font les mêmes choses.)

poly $X,$ $d.$ $d$ $X_1, \ldots, X_k$ $\mathbb X,$

$p_1(X_j), p_2(X_j), \ldots, p_d(X_j)$ $j$ $d.$ $p_0(X_i)$ R
$d.$

$d.$ $2$ $d=2,$ R

p_{1} (X_{1}), p_{2} (X_{1}), p_{1} (X_{2}), p_{1} (X_{1}) p_{1} (X_{2}), p_{2} (X_{2}) .

$p_1(X_1),\quad p_2(X_1),\quad p_1(X_2),\quad p_1(X_1)p_1(X_2),\quad p_2(X_2).$

R $p_2(X_1)p_1(X_2),$ $p_1(X_1)p_2(X_2)$ $p_1(X_2)p_2(X_2)$ formula

$p_1(X_1)p_1(X_2).$ $p_1(X_1)$ $p_1(X_2)$

Un exemple

X = (\begin{matrix} 1 & 3 \\ 5 & 6 \\ 2 & 4 \end{matrix}) .

$\mathbb{X} = \pmatrix{1 & 3 \\ 5 & 6 \\ 2 & 4}.$

$X_1 = (1,5,2)^\prime$ $X_1^0= (1,1,1)^\prime$ $p_0(X_1) = (1,1,1)^\prime/\sqrt{3} \approx(0.58,0.58,0.58)^\prime.$ $X_1^1 = X_1$ $p_0(X_1),$ $X_1$ $p_0(X_1)$ $p_1(X_1)$ $X_1$ $p_1(X_1) = (-0.57,0.79,-0.23)^\prime.$ $X_1^2 = (1,25,4)$ $p_0(X_1)$ $p_1(X_1)$ $X_1$ $n=3$ $X_1,$ $(t-1)(t-5)(t-4),$ $3,$ $3$ ou plus grandes sont des combinaisons linéaires de puissances inférieures et ces puissances inférieures sont linéairement indépendantes.)

$X_1$

P_{1} = (\begin{matrix} 0.58 & - 0.57 & 0.59 \\ 0.58 & 0.79 & 0.20 \\ 0.58 & - 0.23 & - 0.78 \end{matrix})

$\mathbb{P_1} = \pmatrix{0.58 & -0.57 & 0.59 \\ 0.58 & 0.79 & 0.20 \\ 0.58 & -0.23 & -0.78}$

(à deux chiffres significatifs).

$X_2$

P_{2} = (\begin{matrix} 0.58 & - 0.62 & 0.53 \\ 0.58 & 0.77 & 0.27 \\ 0.58 & - 0.15 & - 0.80 \end{matrix}) .

$\mathbb{P_2} = \pmatrix{0.58 & -0.62 & 0.53 \\ 0.58 & 0.77 & 0.27 \\ 0.58 & -0.15 & -0.80}.$

$(0.35, 0.61, 0.035)^\prime.$ polypolym

P = (\begin{matrix} - 0.57 & 0.59 & - 0.62 & 0.35 & 0.53 \\ 0.79 & 0.20 & 0.77 & 0.61 & 0.27 \\ - 0.23 & - 0.78 & - 0.15 & 0.035 & - 0.80 \end{matrix}) .

$\mathbb{P} = \pmatrix{-0.57 & 0.59 & -0.62 & 0.35 & 0.53 \\ 0.79 & 0.20&0.77& 0.61& 0.27 \\ -0.23 & -0.78 & -0.15 & 0.035 & -0.80}.$

$X_1$ $X_2$ $\mathbb{P}^\prime\mathbb{P},$ $(1,2), (2,1), (3,5),$ $(5,3)$ $(1,1), (2,2), (3,3),$ $(5,5)$ $(4,4)$

P^{'} P = (\begin{matrix} 1 & 0 & 1 & 0.28 & 0.091 \\ 0 & 1 & - 0.091 & 0.3 & 1 \\ 1 & - 0.091 & 1 & 0.25 & 0 \\ 0.28 & 0.3 & 0.25 & 0.5 & 0.32 \\ 0.091 & 1 & 0 & 0.32 & 1 \end{matrix}) .

$\mathbb{P}^\prime\,\mathbb{P} = \pmatrix{\color{blue}{\bf 1} & \color{red}{\bf 0} & 1 & 0.28 & 0.091 \\ \color{red}{\bf 0} & \color{blue}{\bf 1} & -0.091 & 0.3 & 1 \\ 1 & -0.091 & \color{blue}{\bf 1} & 0.25 & \color{red}{\bf 0} \\ 0.28 & 0.3 & 0.25 & 0.5 & 0.32 \\ 0.091 & 1 & \color{red}{\bf 0} & 0.32 & \color{blue}{\bf 1}}.$

$\mathbb P$ $10^{-17}$

— whuber
source

R

p_{1} (X_{1}) p_{2} (X_{2})

$p_1(X_1)p_{\color{red}{2}}(X_2)$

p_{1} (X_{1}) p_{1} (X_{2})

$p_1(X_1)p_{\color{red}{1}}(X_2)$

@Cool Good catch - corrigé maintenant.

— whuber

Merci pour cette excellente réponse. Le fait que la réponse arrive longtemps après que j'aie perdu espoir qu'on y réponde en fait une très agréable surprise.

— Pere

X_{1} = X

$X_1=X$

X^{1} = X

$X^1=X$

Complètement raison. Je vous suis reconnaissant de lire le texte de si près que vous trouvez ces erreurs!

— whuber

Que sont les polynômes orthogonaux multivariés calculés dans R?

Le réglage

Grades des polynômes

Utilisations de la régression polynomiale

Polynômes orthogonaux dans une variable

Polynômes à plusieurs variables

Qu'est R- ce que

Un exemple

Qu'est `R`- ce que