Nous avons mesuré deux variables et le nuage de points semble suggérer plusieurs modèles "linéaires". Y a-t-il un moyen d'essayer de distiller ces modèles? L'identification d'autres variables indépendantes s'est avérée difficile.
Les deux variables sont fortement biaisées vers la gauche (vers les petits nombres), c'est une distribution attendue dans notre domaine. L'intensité du point représente la quantité de points de données (sur une échelle ) à cette <x, y> .
Sinon, existe-t-il un moyen de regrouper les points?
Dans notre domaine, on prétend que ces deux variables sont en corrélation linéaire. Nous essayons de comprendre / expliquer pourquoi ce n'est pas le cas dans nos données.
(notez que nous avons 17 millions de points de données)
mise à jour: merci pour toutes les réponses, voici quelques précisions demandées:
- Les deux variables sont uniquement entières, ce qui explique certains des modèles du nuage de points du journal.
- Heureusement, par définition, la valeur minimale des deux variables est 1.
- 7M points sont à ("expliqués" par l'asymétrie gauche des données)
Voici les parcelles demandées:
diagramme de dispersion log-log:
(les blancs sont causés par les valeurs entières)
log-log polaire:
Histogramme du rapport:
La fréquence est sur une échelle logarithmique, car la barre est de 7 millions de points et masquerait les autres barres.