Les données de binning sont-elles valides avant la corrélation de Pearson?

Est-il acceptable de regrouper les données, de calculer la moyenne des cellules, puis de dériver le coefficient de corrélation de Pearson sur la base de ces moyennes? Il me semble une procédure quelque peu louche en ce que (si vous considérez les données comme un échantillon de population) la dispersion de ces moyennes sera l'erreur standard de la moyenne et donc très serrée si est grand. Vous obtiendrez donc probablement un coefficient de corrélation bien meilleur que celui des données primaires, et cela semble faux. D'un autre côté, les gens font souvent la moyenne des mesures répétées avant un calcul de corrélation qui n'est pas très différent. $n$

correlation binning

— James
source

Quel serait le but du binning dans ce cas particulier?

— chl

Il n'est pas évident de regrouper les données avant la corrélation, sauf si vous êtes directement intéressé à examiner la relation entre les variables regroupées.

— Nick Cox

Regrouper des données de façon continue, puis calculer une corrélation, c'est comme couper votre jambe, puis obtenir des béquilles.

— Peter Flom

Je suppose que le binning a été fait pour rendre la corrélation plus belle qu'elle ne l'était en réalité. Les données primaires ont donné une faible corrélation mais, une fois regroupées et moyennées, elles semblaient beaucoup mieux. Je pense que parce que chaque valeur moyenne de bin aura une minuscule erreur standard (il y avait 100s de points dans chaque bin), les valeurs moyennes donnent une corrélation apparemment belle.

— James

Pourquoi s'arrêter là? En utilisant seulement deux bacs, vous pouvez toujours obtenir un coefficient de corrélation de % :-). En revanche, la moyenne des mesures répliquées est différente car elle invoque un modèle différent de comportement des données et conduit à une inférence différente (sur les attentes des répliques plutôt que sur les répliques elles-mêmes).

100

$100$

— whuber

Réponses:

Pas exactement la même chose que votre question, mais sur une note connexe, je me souviens avoir lu un article il y a quelque temps (The American Statistician ou Chance magazine, entre 2000 et 2003) qui montrait que pour tout ensemble de données de 2 variables où elles sont jolies beaucoup sans corrélation, vous pouvez trouver un moyen de regrouper la variable "prédicteur", puis de prendre la moyenne de la variable de réponse dans chaque groupe et selon la façon dont vous effectuez le regroupement, affichez une relation positive ou négative dans un tableau ou un graphique simple.

— Greg Snow
source

L'excellent article auquel vous faites allusion est @Article {wai06fin, author = {Wainer, Howard}, title = {Trouver ce qui n'est pas là grâce au regroupement malheureux des résultats: {The} {Mendel} effect}, journal = {Chance}, année = 2006, volume = 19, nombre = 1, pages = {49-56}, annoter = {peut trouver des casiers qui produisent une association positive ou négative; particulièrement pertinent lorsque les effets sont faibles; `` Avec quatre paramètres, je peux adapter un éléphant; avec cinq, je peux lui faire bouger le tronc. '' - John von Neumann}}

— Frank Harrell

@FrankHarrell, merci pour la référence, je me suis souvenu de quelques années de congé.

— Greg Snow

Considérons deux variables ( , ). Lorsque vous dites bin les données et que vous "bin" sur , voulez-vous dire répéter la mesure pour exactement le même pour obtenir la valeur correspondante ? Si vous répétez la mesure comme ceci, l'erreur en moyenne diminuera avec , et je pense que vous êtes libre de faire ce que vous voulez avec. Assurez-vous simplement d'utiliser un coefficient de corrélation pondéré si vous considérez des points de données avec des barres d'erreur très différentes. $X_i$ $Y_i$ $X_i$ $X_i$ $Y_i'$ $\sqrt{n}$

Supposons maintenant que vous ne répétiez pas la mesure de , mais que vous plutôt et le correspondant et le sur et obteniez des valeurs regroupées dans . Je pense que dans cette situation, la solution dépendra de la relation entre la taille du bac, l'erreur sur la mesure et la pente de la corrélation. J'espère que si et sont tous deux petits, la situation sera similaire à celle du paragraphe précédent. Sinon, il peut être avantageux de regrouper ou non; cela changera les résultats car la cov ( , $X_i$ $X_i\pm\delta$ $Y_i\pm\delta'$ $\delta$ $\delta$ $\delta$ $\delta´$ $X_{i,bin}$ $Y_{i,bin}$ ) sera différent de celui des valeurs non combinées, mais je pense qu'il est toujours valable de le faire. Je pense que vous ne brisez aucune hypothèse; Je m'assurerais simplement qu'il est avantageux de le faire, et je testerais sa signification par un test de permutation (pour éviter de faire une hypothèse sur la distribution des coefficients).

— pedrofigueira
source

La seule façon dont je peux comprendre ce que vous avez écrit, c'est que si quelqu'un a trop de temps et veut simplement passer l'heure, c'est mieux que le crime de rue.

— Frank Harrell

-1

La principale raison de regrouper les données est de permettre la possibilité d'une relation non linéaire entre les variables. La corrélation de Pearson mesure la force de l' association linéaire , donc elle ne fonctionne pas bien lorsque la relation est non linéaire.

Il existe évidemment de bien meilleures façons de gérer ce problème que le binning. Par exemple, vous pouvez adapter un modèle de régression non linéaire ou local et corréler les valeurs de réponse prédites et réelles (bien que cela suppose qu'une approche prédicteur-réponse est valide, tandis que la corrélation est symétrique). Le binning n'est qu'un moyen de résoudre le problème de non-linéarité que les personnes sans expérience en statistiques ou outils statistiques pourraient utiliser.

— Hong Ooi
source

Le binning n'a absolument rien pour aider à trouver une relation non linéaire.

— Frank Harrell