Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je reçois une nouvelle . Je crois que cela s'appelle un traitement "en ligne", par opposition au traitement "par lots", où vous avez toutes les données nécessaires et faites vos calculs en utilisant toutes les données en même temps.x ( y , x ) ( y , x )
J'ai donc cherché des idées et j'ai finalement conclu que le monde était divisé en trois:
La première partie est le pays de la statistique et de l'économétrie. Les gens là-bas font OLS, GLS, variables d'instrument, ARIMA, tests, différence de différences, PCA et ainsi de suite. Ce terrain est majoritairement dominé par la linéarité et ne fait qu'un traitement "batch".
La deuxième partie est l'île de l'apprentissage automatique et d'autres mots comme l'intelligence artificielle, l'apprentissage supervisé et non supervisé, les réseaux de neurones et les SVM. Les traitements "par lots" et "en ligne" sont effectués ici.
La troisième partie est un continent entier que je viens de découvrir, principalement peuplé d'ingénieurs électriciens, semble-t-il. Là, les gens ajoutent souvent le mot "filtre" à leurs outils, et ils ont inventé des trucs formidables comme l'algorithme Widrow-Hoff, les moindres carrés récursifs , le filtre Wiener , le filtre Kalman et probablement d'autres choses que je n'ai pas encore découvertes. Apparemment, ils font surtout du traitement "en ligne" car il correspond mieux à leurs besoins.
Ma question est donc la suivante: avez-vous une vision globale de tout cela? J'ai l'impression que ces trois parties du monde ne se parlent pas trop. Ai-je tort? Existe-t-il une grande théorie unifiée de la compréhension du rapport entre et ? Connaissez-vous des ressources où les bases de cette théorie pourraient être posées?X
Je ne sais pas si cette question a vraiment du sens, mais je suis un peu perdu entre toutes ces théories. J'imagine la réponse à la question "devrais-je utiliser ceci ou cela?" serait "cela dépend de ce que vous voulez faire (et de vos données)". Cependant, j'ai l'impression que ces trois mondes essaient de répondre à la même question ( ?) Et qu'il devrait donc être possible d'avoir une vue plus élevée sur tout cela et de comprendre profondément ce qui rend chaque technique particulière.