Comment discuter d'un nuage de points avec plusieurs lignes émergentes?


11

Nous avons mesuré deux variables et le nuage de points semble suggérer plusieurs modèles "linéaires". Y a-t-il un moyen d'essayer de distiller ces modèles? L'identification d'autres variables indépendantes s'est avérée difficile.

Diagramme de dispersion des deux variables

Les deux variables sont fortement biaisées vers la gauche (vers les petits nombres), c'est une distribution attendue dans notre domaine. L'intensité du point représente la quantité de points de données (sur une échelle ) à cette <x, y> . log10<x,y>

Sinon, existe-t-il un moyen de regrouper les points?

Dans notre domaine, on prétend que ces deux variables sont en corrélation linéaire. Nous essayons de comprendre / expliquer pourquoi ce n'est pas le cas dans nos données.

(notez que nous avons 17 millions de points de données)

mise à jour: merci pour toutes les réponses, voici quelques précisions demandées:

  • Les deux variables sont uniquement entières, ce qui explique certains des modèles du nuage de points du journal.
  • Heureusement, par définition, la valeur minimale des deux variables est 1.
  • 7M points sont à ("expliqués" par l'asymétrie gauche des données)<3,1>

Voici les parcelles demandées:

diagramme de dispersion log-log: Nuage de points dans le journal de bord

(les blancs sont causés par les valeurs entières)

log-log polaire: coordonnées polaires θ=y

Histogramme du rapport: Histogramme du rapport

La fréquence est sur une échelle logarithmique, car la barre est de 7 millions de points et masquerait les autres barres.1/3


2
À quoi ressemble ce tracé en coordonnées polaires ? (Il peut être conseillé de prendre d'abord des logarithmes de et (plus, si nécessaire, un petit décalage de départ pour éviter les zéros).) Puisque toutes les lignes semblent rayonner depuis l'origine, alors en théorie - surtout si la variation autour des lignes apparaît homoscédastique - alors tout ce que vous avez à faire est de regrouper les points dans la dimension . X Y θ θ(r,θ)XYθθ
whuber

Y a-t-il des ratios impliqués dans l'obtention de Y et X? Les variables qui ne prennent que des valeurs discrètes sont-elles impliquées? À quoi cela ressemble-t-il comme un journal log-log?
Glen_b -Reinstate Monica

1
@whuber & Glen_b J'ai ajouté des tracés avec ces transformations.
Davy Landman

Merci, Davy. J'aurais dû être plus clair sur le point d'utiliser les coordonnées polaires: en traçant sur un axe horizontal et sur un axe vertical , toutes les lignes radiales sur le tracé d'origine apparaîtront comme des lignes parfaitement horizontales. Non seulement ils peuvent être facilement détectés visuellement (nos yeux ont un traitement intégré pour reconnaître les caractéristiques linéaires horizontales), mais une fois détectés, ils peuvent être traités avec une analyse de cluster basée uniquement sur . Votre tracé "log-log polaire", en appliquant des transformations non linéaires aux coordonnées (en particulier ), détruit ces belles propriétés. θ θ θrθθθ
whuber

@whuber j'ai mis à jour l'intrigue, mis le thêta sur le y, est-ce les lignes que vous voulez dire?
Davy Landman

Réponses:


7

Vous pouvez avoir des artefacts résultant de restrictions sur ce qui est physiquement possible ou sur ce qui est enregistré (au plus simple, des entiers uniquement). et complètement anonymes ne suggèrent aucune supposition confiante sur la façon dont cela se produit, mais il semble que certains soient favorisés et je regarderais certainement la distribution de ce rapport. De plus, si tel est le cas, selon mon expérience, il n'est pas utile de rechercher des modèles distincts, sauf si vous mélangez vraiment des situations très différentes. (Pour "physiquement" lire "biologiquement" ou tout adverbe qui a du sens.)X Y / XYXY/X

Plus je regarde cela, plus je suppose que des lignes telles que ou sont évidentes pour l'entier , car les valeurs elles-mêmes sont des entiers.k X kX/kkXk

Un point différent mais peut-être lié est que pour moi ces données appellent des transformations. S'ils sont tous positifs, des logarithmes sont indiqués. Je crains que vous ayez des zéros, auquel cas quoi faire est ouvert à la discussion. Par exemple, une ligne à peut être devinée à partir de votre graphique. S'il y a des zéros, certains jurent par ou la racine du cube devrait aider. Tout ce qui vous aide à voir plus clairement les modèles est défendable.log ( Y + constante )Y=0log(Y+constant)

Un point de terminologie: l'asymétrie statistique est décrite en référence à la queue plus allongée. Vous êtes libre de considérer cette terminologie comme à l'envers. Ici, les deux variables sont asymétriques à des valeurs élevées ou positivement ou asymétriquement à droite.

MISE À JOUR: Merci pour les graphiques supplémentaires, qui sont très utiles. Presque toutes les suppositions semblent confirmées. (La ligne de fond, pour ainsi dire, est , pas ) Les rayures sont des artefacts ou des effets secondaires de l'utilisation d'entiers, qui peuvent très bien être le seul, ou du moins le plus pratique, moyen de mesurer ce que vous mesurent (dont la question reste discrète). Le log-log et d'autres graphiques mettent en évidence la discrétion. Donc malgré la discrétion, la discrétion est confirmée. Il existe des modes prononcés (pics de distribution) pour les rapports 1/4, 1/2, 1/1 et 2/1.Y = 0Y=1Y=0

Comme auparavant, je ne conseillerais pas de modéliser différemment différentes bandes sans une raison scientifique pour les distinguer ou les traiter séparément. Vous devriez juste faire la moyenne de ce que vous avez. (Il peut y avoir des méthodes connues avec ce type de données pour supprimer le caractère discret. Si les gens de votre domaine mesurent régulièrement des millions de points pour chaque parcelle, il est difficile de croire que cela n'a jamais été vu auparavant.)

La corrélation devrait certainement être positive. Mis à part un test de signification formel, qui serait ici tout à fait inutile car des corrélations minuscules seront qualifiées de significatives avec cette taille d'échantillon, qu'il soit déclaré fort est une question d'attentes et de normes dans votre domaine. La comparaison quantitative de votre corrélation avec les résultats des autres est une voie à suivre.

Détail: l'asymétrie est toujours décrite dans le mauvais sens selon la convention statistique. Ces variables sont asymétriques à droite; ce jargon s'adapte lorsque l'on regarde un histogramme avec un axe de magnitude horizontal et que l'on note que l'asymétrie est nommée pour la queue la plus longue, pas la concentration avec plus de valeurs.


J'ai ajouté un tracé log-log et j'ai essayé d'être plus précis sur l'asymétrie.
Davy Landman

4

L'outil que vous voulez, je pense, s'appelle la régression de commutation. L'idée est qu'il existe plusieurs lignes de régression et que chaque point de données est affecté à l'une d'entre elles. Par exemple, l'équation de la première ligne de régression serait: L'équation de la ligne de régression serait: Au total, il y a différentes lignes de régression, disons. Pour tout point de données donné, nous ne voyons qu'une des lignes de régression. Ainsi, il doit y avoir un mécanisme pour décider quelle ligne de régression nous voyons pour chaque point. Le mécanisme le plus simple n'est que la distribution multinomiale. Autrement dit, nous voyons la mth Y i

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmth droite de régression avec probabilité , où . pmmpm=1

Le modèle est généralement estimé par maximum de vraisemblance. En supposant que les sont distribués , la fonction de vraisemblance que vous maximiseriez serait: La fonction est la densité normale standard. Vous maximisez cela dans les paramètres , sous réserve des contraintes . C'est généralement un problème de maximisation quelque peu grincheux si vous allez utiliser des méthodes quasi-Newton pour le résoudre. Vous ne pouvez pas simplement démarrer tous les et à zéro et leϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm at , par exemple. Vous devez donner des valeurs de départ distinctes aux et afin que l'algorithme puisse les "distinguer".1Mαβ

Il existe un certain nombre de façons de rendre cela plus impliqué si vous le souhaitez. Vous avez peut-être une variable qui, selon vous, influence , c'est-à-dire qui influence la régression choisie. Eh bien, vous pouvez utiliser une fonction logit multinomiale pour que soit une fonction de : ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

Il y a maintenant paramètres. En fait, il y a paramètres car il y a une normalisation requise sur le --- lisez sur le logit multinomial pour une explication.5 M - 1 δ , γ5M+15M1δ,γ

Une autre façon de l'impliquer davantage est d'utiliser une méthode pour choisir , le nombre de lignes de régression. Je suis assez décontracté à propos de ce genre de choix dans mon propre travail, alors peut-être que quelqu'un d'autre peut vous indiquer la meilleure façon de le choisir.M


2
Cela peut être un modèle naturel lorsqu'il existe plusieurs régimes différents et une justification indépendante de leur existence. Ici, il y a tellement de rayures diagonales - et on peut supposer que plus seraient évidentes à l'échelle logarithmique - que le problème du choix de est primordial pour cette approche, et non accessoire, comme cela semble être impliqué ici. M
Nick Cox

2

J'ai observé un comportement similaire dans certains de mes ensembles de données. Dans mon cas, les lignes multiples étaient dues à une erreur de quantification dans l'un de mes algorithmes de traitement.

Autrement dit, nous avons examiné des diagrammes de dispersion des données traitées, et l'algorithme de traitement a eu certains effets de quantification, qui ont causé des dépendances dans les données qui ressemblaient exactement à celles que vous avez ci-dessus.

La correction des effets de quantification a rendu notre sortie beaucoup plus fluide et moins groupée.

Quant à votre commentaire "corrélation linéaire". Ce que vous avez présenté est insuffisant pour déterminer si ces données sont corrélées linéairement ou non. Autrement dit, dans certains domaines, un coefficient de corrélation> 0,7 est considéré comme une forte corrélation linéaire. Étant donné que la plupart de vos données sont proches de l'origine, il est tout à fait concevable que vos données soient corrélées linéairement par rapport à ce que la «sagesse conventionnelle» dirait. La corrélation vous en dit très peu sur un ensemble de données.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.