Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Extrait du manuel Forecasting: Principles and Practice de Rob J Hyndman et George Athanasopoulos , en particulier la section sur la mesure de la précision : Une méthode de prévision qui minimise le MAE conduira à des prévisions de la médiane, tandis que la minimisation du RMSE conduira à des …
J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir …
Récemment, j'ai appris que la création de fonctionnalités est l'un des moyens de trouver de meilleures solutions aux problèmes de ML. On peut le faire en additionnant par exemple deux fonctionnalités. Par exemple, nous possédons deux fonctionnalités "attaque" et "défense" d'une sorte de héros. Nous créons ensuite une fonctionnalité supplémentaire …
Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où …
Récemment, j'ai découvert que dans la littérature d'économétrie appliquée, lorsqu'il s'agit de problèmes de sélection de caractéristiques, il n'est pas rare d'effectuer LASSO suivi d'une régression OLS en utilisant les variables sélectionnées. Je me demandais comment qualifier la validité d'une telle procédure. Cela causera-t-il des problèmes tels que des variables …
J'ai entendu dire que Jaynes prétend que les fréquentistes opèrent avec un "a priori implicite". Quels sont ou sont ces prieurs implicites? Cela signifie-t-il que les modèles fréquentistes sont tous des cas particuliers de modèles bayésiens à découvrir?
Ceci est probablement une question triviale, mais ma recherche a été infructueuse jusqu'à présent, y compris cet article wikipedia , et le « Recueil des distributions » le document . Si a une distribution uniforme, cela signifie-t-il que suit une distribution exponentielle?e XXXXeXeXe^X De même, si suit une distribution exponentielle, …
J'essaie de comprendre différentes architectures de réseaux de neurones récurrents (RNN) à appliquer aux données de séries chronologiques et je suis un peu confus avec les différents noms qui sont fréquemment utilisés lors de la description des RNN. La structure de la mémoire à court terme à long terme (LSTM) …
J'ai un modèle de réseau neuronal profond et je dois le former sur mon ensemble de données qui comprend environ 100 000 exemples, mes données de validation contiennent environ 1 000 exemples. Parce qu'il faut du temps pour former chaque exemple (environ 0,5 s pour chaque exemple) et afin d'éviter …
Intuitivement, la moyenne n'est que la moyenne des observations. La variance est la différence entre ces observations et la moyenne. Je voudrais savoir pourquoi l'inverse de la variance est connu comme la précision. Quelle intuition pouvons-nous en tirer? Et pourquoi la matrice de précision est-elle aussi utile que la matrice …
Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …
Je lis le chapitre sur le compromis biais-variance des éléments de l'apprentissage statistique et j'ai un doute dans la formule de la page 29. Que les données proviennent d'un modèle tel que où est aléatoire nombre avec la valeur attendue et la variance . Soit la valeur d'erreur attendue du …
J'ai utilisé theeano pour expérimenter avec des LSTM et je me demandais quelles méthodes d'optimisation (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) fonctionnent le mieux pour les LSTM? Existe-t-il des documents de recherche sur ce sujet? De plus, la réponse dépend-elle du type d'application pour laquelle j'utilise le LSTM? Si c'est …
Dans cet article , l'auteur relie l'analyse discriminante linéaire (LDA) à l'analyse en composantes principales (ACP). Avec mes connaissances limitées, je ne suis pas en mesure de comprendre comment LDA peut être quelque peu similaire à PCA. J'ai toujours pensé que LDA était une forme d'algorithme de classification, similaire à …
Dans le contexte de la régression OLS, je comprends qu'un tracé résiduel (vs valeurs ajustées) est conventionnellement considéré pour tester la variance constante et évaluer la spécification du modèle. Pourquoi les résidus sont-ils tracés par rapport aux ajustements, et non par les valeurs ? En quoi les informations diffèrent-elles de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.