Une nouvelle façon révolutionnaire d'exploration de données?

21

L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff:

À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?":

Beaucoup de gens pensent qu'ils vont bien parce qu'ils utilisent des données dans l'échantillon pour la formation et des données hors échantillon pour les tests. Ensuite, ils trient les modèles en fonction de leur performance sur les données de l'échantillon et choisissent les meilleurs à tester sur les données hors échantillon. La tendance humaine est de prendre les modèles qui continuent de bien fonctionner dans les données hors échantillon et de choisir ces modèles pour le trading. Ce type de processus transforme simplement les données hors échantillon en une partie des données de formation, car il sélectionne les modèles qui ont fait le mieux au cours de la période hors échantillon. C'est l'une des erreurs les plus courantes que les gens commettent et l'une des raisons pour lesquelles l'exploration de données telle qu'elle est généralement appliquée donne des résultats terribles.

L'enquêteur demande alors: "Que devriez-vous faire à la place?":

Vous pouvez rechercher des modèles où, en moyenne, tous les modèles hors échantillon continuent de bien fonctionner. Vous savez que vous vous débrouillez bien si la moyenne des modèles hors échantillon est un pourcentage significatif du score dans l'échantillon. De manière générale, vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon. Le modèle commercial de QIM n'aurait jamais fonctionné si SAS et IBM avaient développé un excellent logiciel de modélisation prédictive.

Mes questions
Est-ce que cela a un sens? Que veut-il dire? Avez-vous un indice - ou peut-être même un nom pour la méthode proposée et quelques références? Ou est-ce que ce gars a trouvé le Saint-Graal que personne d'autre ne comprend? Il dit même dans cette interview que sa méthode pourrait potentiellement révolutionner la science ...

data-mining curve-fitting out-of-sample

— vonjd
source

4

Ne discute-t-il pas simplement des erreurs d'un seul échantillon fractionné (formation et validation) et préconise-t-il un processus de validation croisée imbriquée?

— B_Miner

12

Je me méfierais de quiconque revendiquerait une profonde compréhension qui révolutionnerait la "science".

— cardinal le

2

Les gestionnaires de fonds spéculatifs prétendent une «meilleure approche de modélisation» et font un peu de détritus en parlant de la concurrence? Rien de nouveau là-bas.

— Zbicyclist

2

wow, comment cette question obtient-elle autant de votes positifs? La prédiction hors échantillon est un problème discuté le premier jour de tout cours d'initiation à l'apprentissage automatique. Il y a ceux qui ne traitent pas correctement les prédictions hors échantillon, mais certainement personne qui a le moindre indice sur la tâche de prédiction.

— user4733

Le trading est bien sûr un problème temporel, ce qu'il dit semble être que la validation croisée (bien sûr en utilisant des données connues) ne peut pas résoudre le problème de la structure changeant avec le temps !, ce n'est donc pas un Saint Graal. Mais ce qu'il fait réellement ne peut être déduit.

— kjetil b halvorsen

6

Est-ce que cela a un sens ? Partiellement.

Que veut-il dire? Veuillez lui demander.

Avez-vous un indice - ou peut-être même un nom pour la méthode proposée et quelques références?

Validation croisée. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Ou est-ce que ce gars a trouvé le Saint-Graal que personne d'autre ne comprend? Non.

Il dit même dans cette interview que sa méthode pourrait potentiellement révolutionner la science ... Peut-être qu'il a oublié d'inclure les références de cette déclaration ...

— image_doctor
source

2

Eh bien, au moins, il pointe un vrai problème ...

8

Je ne sais pas s'il y aura d'autres réponses "délirantes", mais voici les miennes.

La validation croisée n'est en aucun cas "nouvelle". De plus, la validation croisée n'est pas utilisée lorsque des solutions analytiques sont trouvées. Par exemple, vous n'utilisez pas la validation croisée pour estimer les bêtas, vous utilisez OLS ou IRLS ou une autre solution "optimale".

Ce que je considère comme une lacune manifestement évidente dans la citation ne fait référence à aucune notion de vérification des «meilleurs» modèles pour voir s'ils ont un sens. Généralement, un bon modèle est logique à un certain niveau intuitif. Il semble que l'affirmation est que le CV est une solution miracle à tous les problèmes de prédiction. Il n'y a pas non plus de coupure , la mise en place au niveau de la structure du modèle - Utilisent-nous SVM , la régression des arbres , Dynamiser , ensachage , OLS , MLG , GLMNS. Régularisons-nous les variables? Si c'est le cas, comment? Regroupons-nous les variables? Voulons-nous la robustesse à la rareté? Avons-nous des valeurs aberrantes? Faut-il modéliser les données dans leur ensemble ou en morceaux? Il y a trop d'approches à décider sur la base du CV .

Et un autre aspect important est quels sont les systèmes informatiques disponibles? Comment les données sont-elles stockées et traitées? Y a-t-il un manque - comment expliquer cela?

Et voici la grande: avons-nous suffisamment de données pour faire de bonnes prédictions? Y a-t-il des variables connues que nous n'avons pas dans notre ensemble de données? Nos données sont-elles représentatives de tout ce que nous essayons de prédire?

$K$ $K-2$

$n$ $p$ $n$ $p$ $n$ $p$

— probabilitéislogique
source

9

Belle diatribe. Cela aurait été beaucoup plus facile à lire si vous aviez utilisé les majuscules occasionnelles ...

— MånsT

4

Son explication d'une erreur courante dans l'exploration de données semble raisonnable. Son explication de ce qu'il fait n'a aucun sens. Que veut-il dire quand il dit: "D'une manière générale, vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon". Ensuite, SAS et IBM de mauvaise gueule ne le rendent pas très intelligent non plus. Les gens peuvent avoir du succès sur le marché sans comprendre les statistiques et une partie du succès est la chance. Il est faux de traiter les hommes d'affaires prospères comme s'ils étaient des gourous de la prévision.

— Michael R. Chernick
source

1

N'est-il pas assez clair ce que l'on entend par la déclaration citée? Selon la façon dont les modèles doivent être utilisés, ce qu'il dit faire pourrait avoir beaucoup de sens. Par exemple, le principal «point à retenir» du défi Netflix semble être la puissance du «mélange de modèles» tant que l'on a très peu besoin d'interprétabilité. Dans ce cas, certaines performances "moyennes" hors échantillon des modèles considérés peuvent être tout à fait pertinentes.

— cardinal le

@cardinal: Pourriez-vous former une réponse à partir de ces pensées très intéressantes? Ce serait génial, merci!

— vonjd

2

@cardinal C'est peut-être clair pour vous, mais expliquez ensuite la phrase "Vous obtenez vraiment quelque part si les résultats hors échantillon représentent plus de 50% de l'échantillon". Si vous dites que la moyenne d'emsemble entre les modèles peut être efficace, je suis bien sûr d'accord avec cela. Il a été démontré que le boosting fonctionne bien dans de nombreuses applications. Mais je ne vois pas où cela ressort des remarques de Woodriff.

— Michael R. Chernick

2

Je ne connais évidemment pas les détails de ce que prétend M. Woodriff, mais mon interprétation de cela sur la base de l'extrait a quelque chose à l'effet de: "[Dans mes demandes] si la performance moyenne hors échantillon [en utilisant n'importe quelle métrique Je considère que la pertinence] est au moins deux fois moins bonne que les performances dans l'échantillon après l'ajustement du modèle, alors c'est significatif pour mon application. " Je suis mathématicien / statisticien, j'ai donc besoin de mises en garde. Si j'étais un gestionnaire de fonds spéculatifs à la recherche d'une reconnaissance extérieure, je serais peut-être plus grandiose et absolu dans mes remarques.

— cardinal le

1

@cardinal Donc, prenez le taux d'erreur comme mesure de performance, alors vous interprétez Woodriff pour dire que si le taux d'erreur dans l'échantillon est de 5% et le taux d'erreur hors échantillon est de 10% alors la méthode est bonne? Pourquoi ne pas simplement regarder les performances hors échantillon pour décider? Je suppose que le rapport entre la performance hors échantillon et la performance dans l'échantillon vous indique quelque chose sur la fiabilité / la fiabilité de l'estimation du taux d'erreur dans l'échantillon, mais je ne le vois pas entrer dans l'évaluation des performances du classificateur. Je ne vois toujours pas où le mélange de modèles entre dans ses remarques.

— Michael R. Chernick

4

Vous pouvez rechercher des modèles où, en moyenne, tous les modèles hors échantillon continuent de bien fonctionner.

Ma compréhension des modèles de mots ici, c'est qu'il signifie différentes conditions du marché. Une approche naïve analysera toutes les données disponibles (nous savons tous que plus de données sont meilleures), pour former le meilleur modèle d'ajustement de courbe, puis l'exécuter sur toutes les données, et échanger avec lui tout le temps.

Les gestionnaires de hedge funds et les traders algorithmiques les plus performants utilisent leur connaissance du marché. À titre d'exemple concret, la première demi-heure d'une séance de négociation peut être plus volatile. Ils essaieront donc les modèles sur toutes leurs données, mais uniquement pendant cette première demi-heure, et sur toutes leurs données, mais en excluant cette première demi-heure. Ils peuvent découvrir que deux de leurs modèles réussissent bien au cours de la première demi-heure, mais huit d'entre eux perdent de l'argent. Alors que, lorsqu'ils excluent cette première demi-heure, sept de leurs modèles font de l'argent, trois perdent de l'argent.

Mais, plutôt que de prendre ces deux modèles gagnants et de les utiliser dans la première demi-heure de trading, ils disent: c'est un mauvais moment de la journée pour le trading algorithmique, et nous n'allons pas du tout trader. Le reste de la journée, ils utiliseront leurs sept modèles. C'est-à-dire qu'il semble que le marché est plus facile à prédire avec l'apprentissage automatique à ces moments, de sorte que ces modèles ont plus de chances d'être fiables à l'avenir. (L'heure n'est pas le seul modèle; d'autres sont généralement liées à des événements d'actualité, par exemple le marché est plus volatil juste avant l'annonce des chiffres économiques clés.)

C'est mon interprétation de ce qu'il dit; cela peut être totalement faux, mais j'espère que c'est encore une matière de réflexion utile pour quelqu'un.

— Darren Cook
source

2

En tant que professionnel de la finance, je connais suffisamment le contexte pour que la déclaration ne présente aucune ambiguïté. Les séries chronologiques financières sont souvent caractérisées par des changements de régime, des ruptures structurelles et une dérive de concept, de sorte que la validation croisée telle qu'elle est pratiquée dans d'autres industries n'est pas aussi efficace dans les applications financières. Dans la deuxième partie, il se réfère à une métrique financière, soit le retour sur investissement sur le ratio de Sharpe (retour au numérateur), pas MSE ou autre fonction de perte. Si la stratégie dans l'échantillon produit un rendement de 10%, alors dans le trading réel, elle ne peut de manière réaliste que produire 5%. La partie "révolutionnaire" concerne très certainement son approche d'analyse propriétaire, pas les citations.

— onlyvix.blogspot.com
source

Une question à onlyvix: connaissez-vous des travaux utilisant votre métrique financière comme outil d'optimisation des paramètres, c'est-à-dire optimisant directement les paramètres en maximisant cette métrique, plutôt qu'en utilisant le maximum de vraisemblance?

— kjetil b halvorsen

@kbh ce n'est pas ma métrique financière - l'optimisation du ratio de sharpe est très courante. Un exemple tout en haut de ma tête ssrn.com/abstract=962461 - aucun modèle statistique exact n'est développé mais des règles de trading créées pour (en termes très généraux) maximiser les rendements et minimiser les risques.

— onlyvix.blogspot.com