Je pense que la réponse de Jeromy est suffisante si vous examinez deux études expérimentales ou une méta-analyse réelle. Mais souvent, nous sommes confrontés à l'examen de deux études non expérimentales et sommes chargés d'évaluer la validité de ces deux résultats disparates.
Comme le suggère la liste d'épicerie de Cyrus , le sujet lui-même ne se prête pas à une réponse courte, et des livres entiers visent essentiellement à répondre à une telle question. Pour toute personne intéressée à mener des recherches sur des données non expérimentales, je vous suggère fortement de lire
Plans expérimentaux et quasi-expérimentaux pour l'inférence causale généralisée par William R. Shadish, Thomas D. Cook, Donald Thomas Campbell (J'ai également entendu dire que les anciennes versions de ce texte sont tout aussi bonnes).
Jeromy a fait référence à plusieurs éléments (des échantillons plus grands et une plus grande rigueur méthodologique), et tout ce que Cyrus mentionne serait considéré comme ce que Campbell et Cook appellent la «validité interne». Il s'agit notamment d'aspects de la conception de la recherche et des méthodes statistiques utilisées pour évaluer la relation entre X et Y. En particulier, en tant que critiques, nous sommes préoccupés par les aspects de l'un ou de l'autre qui pourraient biaiser les résultats et diminuer la fiabilité des résultats. Comme il s'agit d'un forum consacré à l'analyse statistique, la plupart des réponses sont centrées sur des méthodes statistiques pour garantir des estimations impartiales de la relation que vous évaluez. Mais ce sont d'autres aspects de la conception de la recherche sans rapport avec l'analyse statistique qui diminuent la validité des résultats, quelle que soit la longueur rigoureuse à laquelle on va dans leur analyse statistique (comme la mention par Cyrus de plusieurs aspects de la fidélité à l'expérience peut être abordée mais pas résolue avec méthodes statistiques, et si elles se produisent, cela diminuera toujours la validité des résultats des études). Il existe de nombreux autres aspects de la validité interne qui deviennent cruciaux à évaluer dans la comparaison des résultats d'études non expérimentales qui ne sont pas mentionnés ici, et des aspects des modèles de recherche qui peuvent distinguer la fiabilité des résultats. Je ne pense pas qu'il soit tout à fait approprié d'entrer dans trop de détails ici,
Campbell et Cook font également référence à la «validité externe» des études. Cet aspect de la conception de la recherche a souvent une portée beaucoup plus petite et ne mérite pas autant d'attention que sa validité interne. La validité externe traite essentiellement de la généralisation des résultats, et je dirais que les profanes peuvent souvent évaluer la validité externe raisonnablement bien tant qu'ils connaissent le sujet. Longue histoire, lisez le livre de Shadish, Cook et Campbell.