Lorsque nous lisons un livre, la compréhension des notations joue un rôle très important dans la compréhension du contenu. Malheureusement, différentes communautés ont des conventions de notation différentes pour la formulation du modèle et le problème d'optimisation. Quelqu'un pourrait-il résumer certaines notations de formulation ici et fournir des raisons possibles?
Je vais donner un exemple ici: Dans la littérature d'algèbre linéaire, le livre classique est l' introduction de Strang à l'algèbre linéaire . La notation la plus utilisée dans le livre est
Où est une matrice de coefficients , est les variables à résoudre et est un vecteur à droite de l'équation . La raison pour laquelle le livre choisit cette notation est l'objectif principal de l'algèbre linéaire: résoudre un système linéaire et comprendre ce qu'est le vecteur . Compte tenu de cette formulation, le problème d'optimisation OLS est
En statistiques ou en apprentissage automatique (du livre Elements of Statistical Learning ), les gens utilisent une notation différente pour représenter la même chose:
Où est la matrice de données , est les coefficients ou les poids à apprendre en apprenant , est la réponse. La raison pour laquelle les gens l'utilisent est parce que les gens de la communauté des statistiques ou de l'apprentissage automatique sont basés sur les données , donc les données et la réponse sont la chose la plus intéressante pour eux, où ils utilisent et pour représenter.
Nous pouvons maintenant voir toute la confusion possible: dans la première équation est identique à dans la deuxième équation. Et dans la deuxième équation n'est pas quelque chose à résoudre. Aussi pour les termes: est la matrice des coefficients en algèbre linéaire, mais ce sont des données en statistiques. est également appelé "coefficients".
De plus, j'ai mentionné que n'est pas exactement ce que les gens utilisent largement dans l'apprentissage automatique, les gens utilisent une version à demi vectorisée qui résume tous les points de données. Tel que
Je pense que la raison en est qu'il est bon quand on parle de la descente de gradient stochastique et d'autres différentes fonctions de perte. De plus, la notation matricielle concise disparaît pour d'autres problèmes que la régression linéaire.
Notation matricielle pour la régression logistique
Quelqu'un pourrait-il donner plus de résumés sur les notations à travers la littérature différente? J'espère que les réponses intelligentes à cette question peuvent être utilisées comme une bonne référence pour les personnes qui lisent des livres traversent une littérature différente.
veuillez ne pas être limité par mon exemple et . Il y en a bien d'autres. Tel que
Pourquoi existe-t-il deux formules / notations de pertes logistiques différentes?