Très simplement: y a-t-il des différences dans les approches bayésienne et fréquentiste de l'analyse des données exploratoires?
Je ne connais aucun biais inhérent aux méthodes de l'EDA car un histogramme est un histogramme, un nuage de points est un nuage de points, etc., et je n'ai pas trouvé d'exemples de différences dans la façon dont l'EDA est enseigné ou présenté (en ignorant un article particulièrement théorique de A. Gelman) . Enfin, j'ai regardé CRAN, l'arbitre de toutes les choses appliquées: je n'ai pas trouvé de packages adaptés à une approche bayésienne. Cependant, je pensais que CV pourrait avoir quelques personnes qui pourraient éclairer cela.
Pourquoi devrait-il y avoir des différences?
Pour commencer:
- Lors de l'identification des distributions antérieures appropriées, ne devrait-on pas enquêter visuellement sur cela?
- Lorsqu'elle résume les données et suggère d'utiliser un modèle fréquentiste ou bayésien, l'EDA ne devrait-elle pas suggérer la direction à prendre?
- Les deux approches ont des différences très claires sur la façon de gérer les modèles de mélange. Identifier qu'un échantillon provient probablement d'un mélange de populations est difficile et directement lié à la méthodologie utilisée pour estimer les paramètres du mélange.
- Les deux approches intègrent des modèles stochastiques et la sélection du modèle est déterminée par la compréhension des données. Des données plus complexes ou des modèles plus complexes nécessitent plus de temps dans l'EDA. Avec de telles distinctions entre les modèles stochastiques ou les processus de génération, il y a des différences dans les activités d'EDA, ne devrait-il donc pas y avoir de distinctions résultant de différentes approches stochastiques?
Note 1: Je ne suis pas concerné par les philosophies de l'un ou l'autre "camp" - je veux seulement combler les lacunes dans ma boîte à outils et méthodes EDA.