Les outils statistiques standard sont le coefficient de corrélation (voir la réponse de Michael Chernick) qui est une valeur entre [-1,1] et est indépendant de l'unité. La covariance est liée au coefficient de corrélation. La covariance est affectée par les unités mais peut être plus facile à interpréter. Cependant, je n'aime aucune de ces options dans le cas général. Je ne les aime pas car ils ne sont pas indépendants de la transformation conforme. Considérez qu'une ligne droite horizontale ou verticale est considérée comme non linéaire par ces deux mesures.
Une meilleure option sans unité consiste à utiliser une décomposition en valeurs singulières (SVD). Le SVD décompose les données en éléments classés par ordre d'importance de leur contribution à l'ensemble. Le rapport du plus grand nombre singulier au deuxième plus grand nombre singulier est donc une métrique de linéarité. Notez que pour utiliser cette méthode, vous devez d'abord centraliser les données (rendre les coordonnées moyennes X, Y, Z, etc. égales à zéro).
Exemple: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Pts centralisés: 9,792639127 0,656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;
SVD, matrice D: 11.86500017 0; 0 3.813448344
Rapport des valeurs singulières 3.111357
Le rapport ci-dessus peut être interprété grossièrement comme les données étant trois fois plus longues dans la direction de la ligne la mieux ajustée que transversales.
Pour une solution avec des unités qui a des unités et ne nécessite pas de SVD. Faites un ajustement de ligne dont le centre de la ligne est l'un des paramètres. L'utilisation des données centralisées ci-dessus est simple: ligne pt = 0 0 (toujours le cas pour les données centralisées) direction de la ligne = -0,999956849 -0,009289783
Les vecteurs du centre de la ligne à chaque point sont les coordonnées centralisées des points. Trouvez les longueurs de la projection de ces vecteurs sur la ligne (valeur absolue du vecteur point la direction de la ligne), et la longueur de la composante vectorielle perpendiculaire (longueur de la direction transversale du vecteur). Longueur parallèle, longueur perpendiculaire 9.798315123, 0.565480194; 0,356259742, 1,684936621; 4,536468847, 1,759433021; 4,905586534, 2,878889448;
Le maximum de projections parallèles est l'étirement des données le long de la ligne. La longueur maximale de la projection perpendiculaire est une mesure de la non-linéarité. Le rapport des deux est une approximation du rapport des valeurs singulières ci-dessus.
Notes 1. L'invariance affine de la linéarité n'est pas possible. Considérez que, dans une transformation affine, nous pourrions mettre à l'échelle tous les axes de coordonnées, sauf un, près de zéro (ce qui rend tout ensemble de points linéaire). L'invariance conforme est donc la meilleure chose que nous puissions faire. 2. Ces méthodes NE SONT PAS ROBUSTES pour les données aberrantes. 3. Les exemples sont 2D mais généralisés à N dimensions.