L'analyse exploratoire des données (EDA) conduit souvent à explorer d'autres «pistes» qui n'appartiennent pas nécessairement à l'ensemble initial d'hypothèses. Je suis confronté à une telle situation dans le cas d'études avec une taille d'échantillon limitée et beaucoup de données collectées à travers différents questionnaires (données socio-démographiques, échelles neuropsychologiques ou médicales - par exemple, fonctionnement mental ou physique, niveau de dépression / anxiété, liste de contrôle des symptômes) ). Il arrive que l'EDA aide à mettre en évidence certaines relations inattendues («inattendues» signifiant qu'elles n'étaient pas incluses dans le plan d'analyse initial) qui se traduisent par des questions / hypothèses supplémentaires.
Comme c'est le cas pour le surapprentissage, le dragage ou l' espionnage des données conduit à des résultats qui ne se généralisent pas. Cependant, lorsque de nombreuses données sont disponibles, il est assez difficile (pour le chercheur ou le médecin) de postuler un ensemble limité d'hypothèses.
J'aimerais savoir s'il existe des méthodes, des recommandations ou des règles empiriques bien reconnues qui peuvent aider à délimiter l'EDA dans le cas d'études sur de petits échantillons.