Permettez-moi de décrire ce que je vois dès que je le regarde:
yXyx ≤ 0,5Y| XX
X
x > 0.5X
E( Y| X= x )X
YXYXY| X
C'est ce que j'ai vu basé sur une inspection purement "à l'œil". En jouant un peu dans un programme de base de manipulation d'images (comme celui avec lequel j'ai dessiné les lignes), nous pourrions commencer à trouver des chiffres plus précis. Si nous numérisons les données (ce qui est assez simple avec des outils décents, parfois fastidieux), nous pouvons alors entreprendre des analyses plus sophistiquées de ce type d’impression.
Ce type d’analyse exploratoire peut conduire à des questions importantes (parfois celles qui surprennent la personne qui possède les données mais n’a montré qu’un complot), mais nous devons faire attention à la mesure dans laquelle nos modèles sont choisis pour ces inspections - si nous appliquons des modèles choisis sur la base de l’apparence d’un graphique, puis estimons ces modèles sur les mêmes données; nous avons tendance à rencontrer les mêmes problèmes que ceux que nous rencontrons lorsque nous utilisons une sélection de modèle et une estimation plus formelles sur les mêmes données. [Cela ne veut pas nier l’importance de l’analyse exploratoire - c’est simplement que nous devons faire attention aux conséquences d’une telle analyse, sans nous préoccuper de la façon dont nous procédons. ]
Réponse aux commentaires de Russ:
[Éditer plus tard: pour clarifier les choses - je suis globalement d’accord avec les critiques de Russ prises à titre de précaution générale, et j’en ai certainement vu plus que ce qu’elle est réellement. J'ai l'intention de revenir et de les éditer dans un commentaire plus détaillé sur les schémas parasites que nous identifions communément à l'œil nu et sur les moyens par lesquels nous pourrions commencer à éviter le pire. Je pense que je pourrai également expliquer pourquoi je pense que ce n'est probablement pas simplement fictif dans ce cas particulier (par exemple via un régressogramme ou un noyau à ordre 0, bien que, bien sûr, sans plus de données à tester, il y a seulement par exemple, si notre échantillon est non représentatif, même le rééchantillonnage ne nous mène que jusque-là.]
Je suis tout à fait d’accord que nous avons tendance à voir des modèles fallacieux; c'est un point que je fais souvent ici et ailleurs.
Une chose que je suggère, par exemple, lorsque vous examinez des parcelles résiduelles ou des parcelles QQ, est de générer de nombreuses parcelles où la situation est connue (à la fois comme il se doit et comme où les hypothèses ne sont pas vérifiées) pour avoir une idée précise de la nature de la configuration. ignoré.
Voici un exemple où un graphique QQ est placé parmi 24 autres (qui vérifient les hypothèses), afin de nous permettre de voir à quel point le graphique est inhabituel. Ce type d’exercice est important car il nous permet d’éviter de nous tromper en interprétant chaque petit mouvement, dont la plupart sera un simple bruit.
Je souligne souvent que si vous pouvez changer une impression en couvrant quelques points, nous pouvons nous appuyer sur une impression générée par rien de plus que du bruit.
[Cependant, quand cela ressort de plusieurs points plutôt que de quelques-uns, il est plus difficile de maintenir que ce n'est pas là.]
Y
Lorsque nous n'avons pas plus de données à vérifier, nous pouvons au moins regarder si l'impression a tendance à survivre au rééchantillonnage (bootstrap la distribution bivariée et voir si elle est toujours toujours présente), ou à d'autres manipulations où l'impression ne devrait pas être apparente. si c'est simple bruit.
1) Voici un moyen de voir si la bimodalité apparente est plus que simplement l’asymétrie plus le bruit - apparaît-elle dans une estimation de la densité du noyau? Est-il toujours visible si nous traçons des estimations de la densité du noyau sous diverses transformations? Ici, je le transforme en une plus grande symétrie, à 85% de la bande passante par défaut (puisque nous essayons d'identifier un mode relativement petit et que la bande passante par défaut n'est pas optimisée pour cette tâche):
YY--√bûche( Y)6868--√bûche( 68 )
2) Voici un autre moyen simple de voir si c'est plus que du "bruit":
Étape 1: effectuer un regroupement sur Y
X
Les points avec des points ont été regroupés différemment du cluster "tout-en-un" du tracé précédent. J'en ferai d'autres plus tard, mais il semble qu'il y ait peut-être vraiment une "division" horizontale près de cette position.
E( Y| x)
3) Edit: Voici le régressogramme, pour les bacs de largeur 0.1 (à l’exception des extrémités, comme je l’avais suggéré précédemment):
Cela correspond tout à fait à l’impression initiale que j’avais de l’intrigue; cela ne prouve pas que mon raisonnement était correct, mais mes conclusions sont arrivées au même résultat que le régressogramme.
E( Y| x)
(La prochaine chose à essayer serait un estimateur de Nadayara-Watson. Ensuite, je pourrais voir comment on procède au ré-échantillonnage si j'en ai le temps.)
4) Éditer plus tard:
Nadarya-Watson, noyau gaussien, bande passante 0,15:
Encore une fois, cela correspond étonnamment à mon impression initiale. Voici les estimateurs NW basés sur dix rééchantillons bootstrap:
Le schéma général est là, bien que quelques exemples de rééchantillons ne suivent pas aussi clairement la description basée sur l’ensemble des données. Nous voyons que le cas du niveau de gauche est moins certain que celui de droite - le niveau de bruit (en partie dû à quelques observations, en partie au large écart) est tel qu'il est moins facile de prétendre que la moyenne est vraiment plus élevée à l'horizon. à gauche qu'au centre.
Mon impression générale est que je ne me suis probablement pas simplement moqué de moi-même, car les différents aspects résistent assez bien à une variété de défis (lissage, transformation, division en sous-groupes, rééchantillonnage) qui auraient tendance à les obscurcir s'ils n'étaient que du bruit. D’un autre côté, tout indique que les effets, bien que globalement conformes à l’impression initiale, sont relativement faibles et il est peut-être trop difficile de prétendre à un réel changement dans les attentes, qui se déplacent de la gauche vers le centre.