Si je comprends bien, vous avez un problème de classification à deux classes, où la classe positive (correspondances) est rare. De nombreux classificateurs sont confrontés à un tel déséquilibre de classe, et il est courant de sous-échantillonner la classe majoritaire afin d'obtenir de meilleures performances, donc la réponse à la première question est "oui". Cependant, si vous sous-échantillonnez trop, vous vous retrouverez avec un classificateur qui surestimera la classe positive de la minorité, donc la meilleure chose à faire est de choisir la ration de sous-échantillonnage pour maximiser les performances, peut-être en minimisant la erreur de validation lorsque les données de test n'ont pas été sous-échantillonnées , vous obtenez donc une bonne indication des performances opérationnelles.
Si vous avez un classificateur probabiliste, qui donne une estimation de la probabilité de l'appartenance à une classe, vous pouvez aller encore mieux et post-traiter la sortie pour compenser la différence entre les fréquences de classe dans l'ensemble d'entraînement et en fonctionnement. Je soupçonne que pour certains classificateurs, l'approche optimale consiste à optimiser à la fois le taux de sous-échantillonnage et la correction de la sortie en optimisant l'erreur de validation croisée.
Plutôt que de sous-échantillonnage, pour certains classificateurs (par exemple SVM), vous pouvez attribuer des poids différents aux modèles positifs et négatifs. Je préfère cela au sous-échantillonnage car cela signifie qu'il n'y a pas de variabilité dans les résultats en raison du sous-échantillon particulier utilisé. Lorsque cela n'est pas possible, utilisez le bootstrap pour créer un classificateur ensaché, où un sous-échantillon différent de la classe majoritaire est utilisé à chaque itération.
La seule autre chose que je dirais, c'est que généralement là où il y a un grand déséquilibre de classe, les fausses erreurs négatives et les fausses erreurs positives ne sont pas également mauvaises, et c'est une bonne idée de les intégrer dans la conception du classificateur (qui peut être accompli - modèles d'échantillonnage ou de pondération appartenant à chaque classe).