État de l'art en général, apprentissage des données en 69

J'essaie de comprendre le contexte du célèbre livre de Minsky et Papert "Perceptrons" de 1969, si critique pour les réseaux de neurones.

Pour autant que je sache, il n'y avait pas encore d'autres algorithmes d'apprentissage supervisé génériques, à l'exception du perceptron: les arbres de décision n'ont commencé à être réellement utiles qu'à la fin des années 70, les forêts aléatoires et les SVM sont des années 90. Il semble que la méthode jackknife était déjà connue, mais pas la validation k-cross (années 70) ou bootstrap (1979?).

Wikipédia dit que les cadres statistiques classiques de Neyman-Pearson et Fisher étaient toujours en désaccord dans les années 50, malgré le fait que les premières tentatives pour décrire une théorie hybride étaient déjà dans les années 40.

Par conséquent, ma question: quelles étaient les méthodes de pointe pour résoudre les problèmes généraux de prévision à partir des données?

classification neural-networks history

— liori
source

La régression logistique a commencé à être utilisée telle qu'elle est aujourd'hui à la fin des années 70 'voir Cramer, JS (2002). "Les origines de la régression logistique", p. 12, papers.tinbergen.nl/02119.pdf

— Tim

La régression linéaire est probablement un "algorithme d'apprentissage supervisé générique" et a été créée au début des années 1800; la régression probit, du moins sous une certaine forme, est apparemment née dans les années 1930 . Voulez-vous dire quelque chose en particulier par «générique» ici?

— Dougal

@Dougal: juste "jugé applicable à un grand nombre de problèmes dans différents domaines", par opposition à "conçu pour résoudre un problème spécifique". J'essaie de comprendre quelles méthodes seraient utilisées par un statisticien ou un scientifique en IA dans les années 60 face à un nouveau problème inconnu sans travail préalable lorsque l'approche la plus simple (comme, je suppose, la régression linéaire?) Ne fonctionne pas et donc la recherche d'outils plus complexes est justifiée. Par exemple, la forêt aléatoire est désormais l'un de ces algorithmes: ils fonctionnent assez bien sur de nombreux ensembles de données provenant de divers domaines.

— liori

Oui bien sûr. Il convient peut-être de noter que la régression probit est en fait probablement un meilleur modèle de classification à usage général que les perceptrons d'origine. S'il a été utilisé comme tel à l'époque, je ne sais pas. Les perceptrons étaient considérés comme différents à l'époque car ils étaient fournis avec un algorithme d'optimisation de type SGD qui les rendait probablement plus évolutifs pour les ordinateurs de l'époque que probit, bien que nous comprenions bien sûr aujourd'hui que ces choix sont indépendants.

— Dougal

Pour toute personne ici encore intéressée par le sujet: j'ai trouvé une étude intéressante du domaine de la sociologie des sciences sur le sujet des controverses du perceptron dans les années 60: Olazaran, "Histoire officielle de la controverse des perceptrons". Le texte ne répond pas à la question posée ici, mais fournit le contexte sociologique du livre de Minsky et Papert - qui me semble maintenant plus important que l'état actuel de la science.

— liori

Réponses:

J'étais curieux à ce sujet, alors j'ai creusé. J'ai été surpris de constater que des versions reconnaissables de nombreux algorithmes de classification courants étaient déjà disponibles en 1969 ou à peu près. Les liens et citations sont donnés ci-dessous.

Il convient de noter que la recherche sur l'IA n'était pas toujours aussi axée sur la classification. Il y avait beaucoup d'intérêt pour la planification et le raisonnement symbolique, qui ne sont plus en vogue, et les données étiquetées étaient beaucoup plus difficiles à trouver. Tous ces articles n'étaient peut-être pas largement disponibles à l'époque non plus: par exemple, le travail sur le proto-SVM a été principalement publié en russe. Ainsi, cela pourrait surestimer les connaissances d'un scientifique moyen sur la classification en 1969.

Analyse discriminante

Dans un article de 1936 dans les Annals of Eugenics , Fisher a décrit une procédure pour trouver une fonction linéaire qui discrimine entre trois espèces de fleurs d'iris, sur la base de leurs dimensions de pétales et de sépales. Ce document mentionne que Fisher avait déjà appliqué une technique similaire pour prédire le sexe des mandibules humaines (os de la mâchoire) excavés en Égypte, en collaboration avec E. S Martin et Karl Pearson ( jstor ), ainsi que dans un projet de mesure crânienne distinct avec une Miss Mildred Barnard (que je n'ai pas pu retrouver).

Régression logistique

La fonction logistique elle-même est connue depuis le XIXe siècle, mais surtout comme modèle de processus de saturation, tels que la croissance de la population ou les réactions biochimiques. Tim renvoie à l'article de JS Cramer ci-dessus, qui est une belle histoire de ses débuts. En 1969, cependant, Cox avait publié la première édition d' Analysis of Binary Data . Je n'ai pas pu trouver l'original, mais une édition ultérieure contient un chapitre entier sur l'utilisation de la régression logistique pour effectuer la classification. Par exemple:

$y=0,1$ $x'$ $y$ $y$

$k$

$k$ $k$

Les réseaux de neurones

Rosenblatt a publié un rapport technique décrivant le perceptron en 1957 et l'a suivi avec un livre , Principles of Neurodynamics en 1962. Des versions continues de la rétropropagation existent depuis le début des années 1960, y compris des travaux de Kelley , Bryson et Bryson & Ho (révisés en 1975, mais l'original date de 1969. Cependant, il n'a été appliqué aux réseaux de neurones que un peu plus tard, et les méthodes de formation des réseaux très profonds sont beaucoup plus récentes. Cet article de la recherche scientifique sur l'apprentissage profond contient plus d'informations.

Méthodes statistiques

Je soupçonne que l'utilisation de la règle de Bayes pour la classification a été découverte et redécouverte à plusieurs reprises - c'est une conséquence assez naturelle de la règle elle-même. La théorie de la détection du signal a développé un cadre quantitatif pour décider si une entrée donnée était un "signal" ou un bruit. Certains d'entre eux sont sortis de la recherche radar après la Seconde Guerre mondiale, mais ils ont été rapidement adaptés aux expériences de perception (par exemple, par Green et Swets ). Je ne sais pas qui a découvert que l'hypothèse d'indépendance entre les prédicteurs fonctionne bien, mais les travaux du début des années 1970 semblent avoir exploité cette idée, comme résumé dans cet article . Soit dit en passant, cet article souligne également que Naive Bayes était autrefois appelé "idiot Bayes"!

Soutenir les machines vectorielles

En 1962, Vapnik et Chervonenkis ont décrit le "Generalized Portrait Algorithm" ( terrible scan, désolé ), qui ressemble à un cas particulier d'une machine à vecteur de support (ou en fait, un SVM à une classe). Chervonenkis a écrit un article intitulé "Early History of Support Vector Machines" qui décrit cela et leur travail de suivi plus en détail. L'astuce du noyau (noyaux en tant que produits internes) a été décrite par Aizerman, Braverman et Rozonoer en 1964. svms.org a un peu plus sur l'histoire des machines à vecteurs de support ici .

— Matt Krause
source

L'analyse des séries chronologiques résolvait également certains problèmes intéressants. Les filtres ARMA et Kalman ont fait un bon kilométrage dans les années 50 et 60.

— EngrStudent

Intéressant! Je n'en connais pas autant ni son histoire, mais je voterais volontiers pour une réponse si vous en écriviez une!

— Matt Krause

AVERTISSEMENT : Cette réponse est incomplète, mais je n'ai pas le temps de la mettre à jour en ce moment. J'espère y travailler plus tard cette semaine.

Question:
quelles étaient les méthodes de pointe pour résoudre les problèmes de genres de prédiction à partir de données vers 1969?

Remarque: cela ne va pas répéter l'excellente réponse de «Matt Krause».

«État de l'art» signifie «le meilleur et le plus moderne» mais pas nécessairement réduit à la pratique comme norme industrielle. En revanche, la loi américaine sur les brevets recherche "non évident" tel que défini par "l'homme du métier". L '«état de l'art» pour 1969 a probablement été déposé dans des brevets au cours de la prochaine décennie.

Il est extrêmement probable que les approches "les meilleures et les plus brillantes" de 1969 aient été utilisées ou évaluées pour être utilisées dans ECHELON (1) (2) . Elle montrera également dans l'évaluation de l'autre superpuissance mathématique de l'époque, l'URSS. (3) Je mets plusieurs années à fabriquer un satellite, et on peut donc s'attendre à ce que la technologie ou le contenu des ~ 5 prochaines années de satellites de communication, de télémétrie ou de reconnaissance montrent l'état de l'art de 1969. Un exemple est le satellite météorologique Meteor-2 a commencé en 1967 et sa conception préliminaire a été achevée en 1971. (4) L'ingénierie des charges utiles spectrométriques et actinométriques est informée par les capacités de traitement de données de la journée et par le traitement des données "proche-futur" envisagé de l'heure. Le traitement de ce type de données permet de rechercher les meilleures pratiques de la période.

Une lecture du "Journal of Optimization Theory and Applications" existe depuis plusieurs années et son contenu est accessible. (5) Considérez ceci (6) évaluation des estimateurs optimaux, et celle des estimateurs récursifs. (sept)

Le projet SETI, lancé dans les années 1970, utilisait probablement une technologie et des techniques à moindre budget plus anciennes pour s'adapter à la technologie de l'époque. L'exploration des premières techniques SETI peut également parler de ce que l'on considérait comme un leader vers 1969. Un candidat probable est le précurseur de la " valise SETI ". La «valise SETI» a utilisé le DSP pour construire des récepteurs d'autocorrélation dans environ 130 k canaux à bande étroite. Les gens de SETI cherchaient particulièrement à effectuer une analyse du spectre. L'approche a d'abord été utilisée hors ligne pour traiter les données Aricebo. Il a ensuite été connecté au radiotélescope Aricebo en 1978 pour des données en direct et le résultat a été publié est un schéma de principe montrant le processus. la même année . Le Suitecase-SETI a été achevé en 1982. Ici (lien)

L'approche consistait à utiliser des transformées de Fourier longues hors ligne (~ 64k échantillons) pour rechercher des segments de bande passante, y compris la gestion du chirp et la compensation en temps réel du décalage Doppler. L'approche n'est "pas nouvelle" et des références ont été fournies, notamment: Voir, par exemple,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973).

Les outils utilisés pour la prédiction de l'état suivant étant donné l'état précédent qui étaient populaires à l'époque comprennent:

Filtres de Kalman (et dérivés) (Weiner, Bucy, non linéaire ...)
Méthodes de séries chronologiques (et dérivées)
Méthodes du domaine fréquentiel (Fourier), y compris le filtrage et l'amplification

Les "mots-clés" (ou mots à la mode) courants incluent "adjoint, variationnel, gradient, optimal, second ordre et conjugué".

La prémisse d'un filtre de Kalman est un mélange optimal de données du monde réel avec un modèle analytique et prédictif. Ils étaient utilisés pour faire en sorte que des missiles frappent une cible en mouvement.

— EngrStudent
source

Merci d'avoir rédigé cela - j'aime l'approche axée sur les applications que vous avez adoptée!