J'utilise Bayes pour résoudre un problème de clustering. Après avoir fait quelques calculs, je me retrouve avec la nécessité d'obtenir le rapport de deux probabilités:
pouvoir obtenir . Ces probabilités sont obtenues par intégration de deux KDE multivariés 2D différents comme expliqué dans cette réponse :
où et sont les KDE et l'intégration se fait pour tous les points en dessous des seuils et . Les deux KDE utilisent un noyau gaussien . Une image représentative d'un KDE similaire à ceux avec lesquels je travaille peut être vue ici: Intégration de l'estimateur de densité de noyau en 2D .
Je calcule les KDE au moyen d'une python
fonction stats.gaussian_kde , donc j'assume la forme générale suivante pour cela:
où n
est la longueur de mon tableau de points et h
la bande passante utilisée.
Les intégrales ci-dessus sont calculées en appliquant un processus de Monte Carlo qui est assez coûteux en calcul. J'ai lu quelque part (oublié où, désolé) que dans des cas comme celui-ci, il est possible de remplacer le rapport des probabilités par le rapport des PDF (KDE) évalués aux points de seuil pour obtenir des résultats tout aussi valables. Cela m'intéresse parce que le calcul du rapport KDE est des ordres de grandeur plus rapide que le calcul du rapport des intégrales avec MC.
La question est donc réduite à la validité de cette expression:
Dans quelles circonstances, le cas échéant, puis-je dire que cette relation est vraie?
[faute de frappe fixe (EDIT)]
Ajouter :
Voici essentiellement la même question mais faite sous une forme plus mathématique .
P(X)
ce que j'essaie d'éviter de calculer. Pourriez-vous développer un peu la pertinence de ce paramètre?