L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff:
À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?":
Beaucoup de gens pensent qu'ils vont bien parce qu'ils utilisent des données dans l'échantillon pour la formation et des données hors échantillon pour les tests. Ensuite, ils trient les modèles en fonction de leur performance sur les données de l'échantillon et choisissent les meilleurs à tester sur les données hors échantillon. La tendance humaine est de prendre les modèles qui continuent de bien fonctionner dans les données hors échantillon et de choisir ces modèles pour le trading. Ce type de processus transforme simplement les données hors échantillon en une partie des données de formation, car il sélectionne les modèles qui ont fait le mieux au cours de la période hors échantillon. C'est l'une des erreurs les plus courantes que les gens commettent et l'une des raisons pour lesquelles l'exploration de données telle qu'elle est généralement appliquée donne des résultats terribles.
L'enquêteur demande alors: "Que devriez-vous faire à la place?":
Vous pouvez rechercher des modèles où, en moyenne, tous les modèles hors échantillon continuent de bien fonctionner. Vous savez que vous vous débrouillez bien si la moyenne des modèles hors échantillon est un pourcentage significatif du score dans l'échantillon. De manière générale, vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon. Le modèle commercial de QIM n'aurait jamais fonctionné si SAS et IBM avaient développé un excellent logiciel de modélisation prédictive.
Mes questions
Est-ce que cela a un sens? Que veut-il dire? Avez-vous un indice - ou peut-être même un nom pour la méthode proposée et quelques références? Ou est-ce que ce gars a trouvé le Saint-Graal que personne d'autre ne comprend? Il dit même dans cette interview que sa méthode pourrait potentiellement révolutionner la science ...