Quelles sont les notations classiques en statistique, algèbre linéaire et apprentissage automatique? Et quels sont les liens entre ces notations?


26

Lorsque nous lisons un livre, la compréhension des notations joue un rôle très important dans la compréhension du contenu. Malheureusement, différentes communautés ont des conventions de notation différentes pour la formulation du modèle et le problème d'optimisation. Quelqu'un pourrait-il résumer certaines notations de formulation ici et fournir des raisons possibles?

Je vais donner un exemple ici: Dans la littérature d'algèbre linéaire, le livre classique est l' introduction de Strang à l'algèbre linéaire . La notation la plus utilisée dans le livre est

Ax=b

Où est une matrice de coefficients , est les variables à résoudre et est un vecteur à droite de l'équation . La raison pour laquelle le livre choisit cette notation est l'objectif principal de l'algèbre linéaire: résoudre un système linéaire et comprendre ce qu'est le vecteur . Compte tenu de cette formulation, le problème d'optimisation OLS estAxbx

minimizex  Axb2

En statistiques ou en apprentissage automatique (du livre Elements of Statistical Learning ), les gens utilisent une notation différente pour représenter la même chose:

Xβ=y

X est la matrice de données , β est les coefficients ou les poids à apprendre en apprenant , y est la réponse. La raison pour laquelle les gens l'utilisent est parce que les gens de la communauté des statistiques ou de l'apprentissage automatique sont basés sur les données , donc les données et la réponse sont la chose la plus intéressante pour eux, où ils utilisent X et y pour représenter.

Nous pouvons maintenant voir toute la confusion possible: A dans la première équation est identique à X dans la deuxième équation. Et dans la deuxième équation X n'est pas quelque chose à résoudre. Aussi pour les termes: A est la matrice des coefficients en algèbre linéaire, mais ce sont des données en statistiques. β est également appelé "coefficients".

De plus, j'ai mentionné que Xβ=y n'est pas exactement ce que les gens utilisent largement dans l'apprentissage automatique, les gens utilisent une version à demi vectorisée qui résume tous les points de données. Tel que

miniL(yi,f(xi))

Je pense que la raison en est qu'il est bon quand on parle de la descente de gradient stochastique et d'autres différentes fonctions de perte. De plus, la notation matricielle concise disparaît pour d'autres problèmes que la régression linéaire.

Notation matricielle pour la régression logistique

Quelqu'un pourrait-il donner plus de résumés sur les notations à travers la littérature différente? J'espère que les réponses intelligentes à cette question peuvent être utilisées comme une bonne référence pour les personnes qui lisent des livres traversent une littérature différente.

veuillez ne pas être limité par mon exemple et . Il y en a bien d'autres. Tel queAx=bXβ=y

Pourquoi existe-t-il deux formules / notations de pertes logistiques différentes?


5
La notation n'existe pas vraiment comme une sorte de vérité vérifiable extérieurement. C'est un langage, il est donc intrinsèquement contextuel et à redéfinir. Si j'écris x * b et dis que cela signifie matrice x vecteur de produit scalaire b, c'est juste, en gras ou non.
Sycorax dit Réintégrer Monica le

3
Je dirais que et ont une notation équivalente. Seuls les noms des variables ont changé. En général, vous ne trouverez pas de dénomination cohérente des variables d'un papier à l'autre, même dans un champ. Ax=bXβ=y
user20160

6
À l'heure actuelle, cela a 10 votes positifs, 150 vues; cela semble être un fil précieux et utile. De plus, il a une réponse positive; donc je ne pense pas que ce soit trop large pour être répondu.
gung - Rétablir Monica

3
Je suis d'accord avec @gung, la communauté a clairement un certain intérêt pour cette question. J'ai proposé ma réouverture.
Matthew Drury

1
Je pense que c'est trop large pour un q régulier. - mais comme c'est déjà CW et quelque peu populaire, j'ai ajouté mon vote pour rouvrir aux quatre qui étaient là.
Scortchi - Réintégrer Monica

Réponses:


18

Peut-être une question connexe est: "Quels sont les mots utilisés dans différentes langues et quels sont les liens entre ces mots?"

La notation est en quelque sorte un langage:

  • Certains mots ont des significations spécifiques à une région; certains mots sont largement compris.
  • Comme des nations puissantes diffusent leur langue, des domaines performants et des chercheurs influents diffusent leur notation.
  • La langue évolue avec le temps: la langue a un mélange d'origines historiques et d'influence moderne.

Votre question spécifique ...

  • Je ne serais pas d'accord avec votre affirmation selon laquelle les deux suivent «une notation complètement différente». Les deux et en lettres majuscules pour désigner les matrices. Ils ne sont pas si différents.Xβ=yAx=b
  • L'apprentissage automatique est fortement lié aux statistiques, un domaine vaste et mature. L'utilisation de pour représenter la matrice de données est certainement la convention la plus lisible et la plus standard à suivre. Alors que est standard pour résoudre des systèmes linéaires, ce n'est pas ainsi que les gens qui font des statistiques écrivent les équations normales. Vous trouverez votre public plus confus si vous essayez de le faire. Quand à Rome ...XAx=b
  • Dans un certain sens, le cœur de votre question révisée est: "Quelles sont les origines historiques des statistiques utilisant la lettre pour représenter les données et la lettre pour représenter la variable inconnue à résoudre?" xβ
    • C'est une question pour les historiens de la statistique! En cherchant brièvement, je vois que l'influent statisticien britannique et universitaire de Cambridge, Udny Yule, a utilisé pour représenter les données dans son Introduction to the Theory of Statistics (1911). Il a écrit une équation de régression comme , avec l'objectif des moindres carrés comme minimisant , et avec la solution . Cela remonte au moins à l'époque ...xx1=a+bx2(x1abx2)2b12=x1x2x22
    • Encore plus influent, RA Fisher a utilisé pour la variable dépendante et pour la variable indépendante dans son livre de 1925 intitulé Statistical Methods for Research Workers . (Pointe du chapeau à @Nick Cox pour avoir fourni un lien avec des informations.)yx

Une bonne notation est comme un bon langage. Évitez le jargon spécifique au champ dans la mesure du possible. Écrivez l'équivalent mathématique de l'anglais BBC élevé, une langue qui est compréhensible pour la plupart des personnes qui parlent anglais. On devrait écrire, dans la mesure du possible, en utilisant une notation claire et largement comprise.


1
Cet historien amateur des statistiques peut apporter une correction pédante selon laquelle Yule n'a jamais été professeur ... Plus intéressant, il existe un site Web pertinent à jeff560.tripod.com/stat.html, sauf qu'il semble être en panne actuellement.
Nick Cox

2
math.hawaii.edu/~tom/history/stat.html semble être une copie. Les conventions systématiques telles que le grec pour les paramètres et le romain pour les variables, je crois, sont en grande partie dues à RA Fisher, mais il y a beaucoup de retenues, par exemple pour l'échantillon de statistiques chi carré ne montre aucun signe de décoloration. χ2
Nick Cox

@NickCox Lien fantastique jeff560.tripod.com/stat.html (pour moi ...) qui fait référence à Yule et RA Fisher! Les premières origines mathématiques de la régression remontent évidemment plus tôt à Gauss et Laplace, mais dans ma recherche amateur complète, elles semblaient utiliser une notation différente.
Matthew Gunn

jeff560.tripod.com/stat.html que j'écris est une mise à jour 2014; www.math.hawaii.edu/~tom/history/stat.html est une copie d'une version de 2007.
Nick Cox
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.