Avez-vous une vision globale de ces techniques d'analyse?


24

Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je reçois une nouvelle . Je crois que cela s'appelle un traitement "en ligne", par opposition au traitement "par lots", où vous avez toutes les données nécessaires et faites vos calculs en utilisant toutes les données en même temps.x ( y , x ) ( y , x )yX(y,X)(y,X)

J'ai donc cherché des idées et j'ai finalement conclu que le monde était divisé en trois:

  • La première partie est le pays de la statistique et de l'économétrie. Les gens là-bas font OLS, GLS, variables d'instrument, ARIMA, tests, différence de différences, PCA et ainsi de suite. Ce terrain est majoritairement dominé par la linéarité et ne fait qu'un traitement "batch".

  • La deuxième partie est l'île de l'apprentissage automatique et d'autres mots comme l'intelligence artificielle, l'apprentissage supervisé et non supervisé, les réseaux de neurones et les SVM. Les traitements "par lots" et "en ligne" sont effectués ici.

  • La troisième partie est un continent entier que je viens de découvrir, principalement peuplé d'ingénieurs électriciens, semble-t-il. Là, les gens ajoutent souvent le mot "filtre" à leurs outils, et ils ont inventé des trucs formidables comme l'algorithme Widrow-Hoff, les moindres carrés récursifs , le filtre Wiener , le filtre Kalman et probablement d'autres choses que je n'ai pas encore découvertes. Apparemment, ils font surtout du traitement "en ligne" car il correspond mieux à leurs besoins.

Ma question est donc la suivante: avez-vous une vision globale de tout cela? J'ai l'impression que ces trois parties du monde ne se parlent pas trop. Ai-je tort? Existe-t-il une grande théorie unifiée de la compréhension du rapport entre et ? Connaissez-vous des ressources où les bases de cette théorie pourraient être posées?XOuiX

Je ne sais pas si cette question a vraiment du sens, mais je suis un peu perdu entre toutes ces théories. J'imagine la réponse à la question "devrais-je utiliser ceci ou cela?" serait "cela dépend de ce que vous voulez faire (et de vos données)". Cependant, j'ai l'impression que ces trois mondes essaient de répondre à la même question ( ?) Et qu'il devrait donc être possible d'avoir une vue plus élevée sur tout cela et de comprendre profondément ce qui rend chaque technique particulière.y=F(X)


Je pense que les 2 premiers domaines se parlent beaucoup plus ces jours-ci. Grande question cependant!
Zach

Sujet Dynamite et question bien écrite!
rolando2

1
Veuillez faire cette CW.
cardinal

1
Je m'appellerais un statisticien, mais je fais beaucoup de choses en ligne, je fais des modélisations non linéaires de divers types et j'ai essayé au moins un peu d'IA. Je pense que les différences dans les outils typiques ont plus à voir avec les types de problèmes que les gens ont tendance à rencontrer. Là où leurs problèmes convergent, tôt ou tard, ils ont tendance à trouver ou à réinventer les mêmes outils (souvent sous des noms différents et avec des cloches et des sifflets légèrement différents).
Glen_b -Reinstate Monica

Réponses:


4

En termes de lot par rapport à en ligne, mon expérience me dit que parfois vous combinez les deux. Ce que je veux dire, c'est que vous laissez les tâches lourdes, c'est-à-dire calculer des tâches intensives liées à la formulation de modèles, être effectuées hors ligne, puis utiliser des procédures rapides / adaptatives pour utiliser ces modèles. Nous avons constaté que les «nouvelles données» peuvent être utilisées de trois manières; 1. simplement prévoir; 2. réviser les paramètres du modèle connu et 3. réviser les paramètres et éventuellement réviser le modèle. Ces trois approches ont été utilisées pour une "analyse en direct" et, bien entendu, le temps nécessaire pour effectuer l'une de ces trois étapes dépend à la fois du logiciel utilisé et du matériel disponible.

Passons maintenant à votre autre point concernant la façon de modéliser y vs x. Je préfère utiliser une version étendue de la régression (appelée fonctions de transfert ou modèles ARMAX) comme base pour extraire l'impact de l'historique de y et les valeurs actuelles et pas de x. Il est essentiel de valider les exigences gaussiennes et d'incorporer comme mandataires nécessaires à la fois la structure déterministe omise (via la détection des valeurs aberrantes) et la structure stochastique omise via la composante ARMA. De plus, il faut s'assurer que l'on n'a pas utilisé trop de données (tests de constance des paramètres) et que toute variance d'erreur non constante résultant d'une variance d'erreur déterministe / stochastique et / ou d'un lien entre la valeur attendue de y et la variance de la résidus.

Désormais, historiquement (ou hystériquement si vous le souhaitez), différents silos de pensée ont tenté de formuler des approches. De nombreux modèles ad hoc utilisés par nos ancêtres peuvent être présentés comme des sous-ensembles d'une fonction de transfert, mais il existe des ensembles de données qui peuvent être imaginés qui remettraient en question les hypothèses d'une fonction de transfert. Bien que ces ensembles de données puissent exister, il ne faut pas supposer qu'ils vous affecteront directement, sauf si l'analyse aboutit à cette conclusion.

Des textes comme Wei (Addison-Wessley) ou Box-Jenkins devraient fournir une feuille de route raisonnable pour soutenir mes commnents et vous conduire à d'autres "réponses".

Au fait, c'est une excellente question!

De plus, si vous avez des données que vous souhaitez utiliser, je pourrais démontrer les différentes options décrites ici. Veuillez publier vos données sur le Web pour que tous puissent les voir et les utiliser dans leurs efforts pour associer "y à x".


Merci pour votre réponse! J'y approfondirai dès que j'aurai le temps et je reviendrai probablement vers vous. Je dois dire que je ne connaissais pas le modèle ARMAX. Je suppose que j'aurais été directement dans un VAR entièrement endogène. En ce qui concerne les données, nous sommes en train de créer d'autres éléments pour notre projet, donc je n'ai pas beaucoup de données pertinentes pour le moment. Mais merci beaucoup, vous devriez à nouveau entendre parler de moi!
Arthur

"valider les exigences gaussiennes": la modélisation gaussienne / non paramétrique / oublie (rythme Breiman) n'est-elle pas une scission profonde?
denis

2

Breiman aborde cette question dans " Modélisation statistique: deux cultures ". Une première réponse à une excellente question.


Remercier! Votre lien n'a pas fonctionné pour moi, celui-là fonctionne et celui-ci mène directement au pdf. J'ai seulement lu le résumé et une partie au hasard dans le texte et cela a l'air très intéressant. Les gars semblent être totalement "anti-statistiques classiques". Merci encore.
Arthur

Super - j'ai mis à jour le lien. C'est une lecture amusante - profitez-en!
Ram Ahluwalia

Les "Deux cultures" de Breiman ont été discutées ici : quelques points intéressants, mais il est difficile de changer ou même d'expliquer son état d'esprit.
denis

1

Je soupçonne que la réponse à cette question est quelque chose du genre "il n'y a pas de déjeuner gratuit". Peut-être que les statisticiens, les informaticiens et les ingénieurs électriciens ont développé différents algorithmes parce qu'ils sont intéressés à résoudre différents types de problèmes.


0

Je dirais que ces trois groupes que vous avez indiqués ne sont en effet que deux groupes:

  • Statistiques
  • Apprentissage automatique, intelligence artificielle et reconnaissance de formes.

Toutes les branches liées au filtrage du signal reposent sur deux aspects: l'extraction de caractéristiques (ondelettes, Gabor et Fourier) qui appartient à la reconnaissance de formes et la transformation de Fourier discrète qui appartient aux mathématiques dures. En fait, le filtrage numérique est plus proche d'un aspect technique car il essaie de résoudre ce problème de reconnaissance de formes au moyen d'algorithmes simples et à faible coût de calcul. Mais essentiellement, c'est l'apprentissage automatique.

De plus, le filtrage, les ondelettes, Gabor et Fourier sont largement utilisés dans le traitement d'image étant au cœur de la vision artificielle.

La différence existe entre les statistiques et l'apprentissage automatique.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.