En ce qui concerne l'approche, SVM avec un noyau RBF fait un bon travail, mais les SVM peuvent être ralentis par de grandes tailles d'objets, sauf si vous utilisez CV avec par exemple un dixième des données assignées au hasard à chaque pli. Cependant, vous êtes-vous demandé pourquoi vous employez des SVM en premier lieu?
Avez-vous essayé la régression linéaire multivariée, , où chaque enregistrement de est codé si le ème objet est dans classe , et sinon? Si la précision de la classification est sensiblement élevée à l'aide de la régression linéaire, alors vos données sont linéairement séparables et des méthodes plus complexes telles que les SVM et les ANN ne sont pas nécessaires. L'étape 2 consisterait à montrer que le plus proche voisin k, les Bayes naïfs, l'analyse discriminante linéaire (Fisher), la régression logistique polytomique, etc., se décomposent et échouent.Y = X βOuiyje j= + 1jejyje j= - 1
Pour la terminologie, vous pourriez aborder la question d'avoir plus de poids de classe dans le contexte de «proportions plus faibles d'objets dans certaines classes» ou de «taille de classe proche de zéro». L'asymétrie a tendance à être utilisée pour décrire la distribution des valeurs d'une entité, comme dans l'asymétrie, la queue grasse, etc.
De combien de fonctionnalités disposez-vous? Avez-vous essayé le clustering non supervisé (découverte de classe) sur les 100 000 objets avant d'essayer la classification supervisée (prédiction de classe) avec SVM? Peut-être que les 100 000 objets peuvent être regroupés en moins de 50 classes, pour lesquelles la nouvelle appartenance à une classe pourrait être utilisée comme classe cible lors de l'analyse de classification. Cela peut atténuer le problème d'avoir une taille de classe proche de zéro.