Je n'ai jamais vraiment trouvé de bon texte ou d'exemples sur la façon de gérer les données «inexistantes» pour les entrées de n'importe quel classificateur. J'ai beaucoup lu sur les données manquantes mais que peut-on faire sur les données qui ne peuvent pas exister ou qui n'existent pas par rapport aux entrées multivariées. Je comprends que cette question est très complexe et variera en fonction des méthodes de formation utilisées ...
Par exemple, si vous essayez de prévoir le temps de l'ordinateur portable pour plusieurs coureurs avec de bonnes données précises. Parmi de nombreuses entrées, les variables possibles parmi de nombreuses sont:
- Variable d'entrée - Premier coureur (O / N)
- Variable d'entrée - Temps passé sur le portable (0 - 500 secondes)
- Variable d'entrée - Âge
- Variable d'entrée - Hauteur. . . beaucoup plus de variables d'entrée, etc.
& Output Predictor - Prediction Laptime (0 - 500 secondes)
Une `` variable manquante '' pour `` 2.Heure d'ordinateur portable précédente '' pourrait être calculée de plusieurs manières mais `` 1. Premier coureur 'serait toujours égal à N. Mais pour «DONNÉES NON EXISTANTES» pour un premier coureur (où «1. Premier coureur» = Y) quelle valeur / traitement dois-je donner pour «2. Ordinateur portable précédent »?
Par exemple, attribuer «2. L'ordinateur portable précédent '-99 ou 0 peut fausser considérablement la distribution et donner l'impression qu'un nouveau coureur a bien performé.
Mes méthodes de formation actuelles utilisent des arbres de régression logistique, SVM, NN et décisionnels