Statistiques et Big Data

2

Pourquoi la minimisation du MAE conduit-elle à prévoir la médiane et non la moyenne?

Extrait du manuel Forecasting: Principles and Practice de Rob J Hyndman et George Athanasopoulos , en particulier la section sur la mesure de la précision : Une méthode de prévision qui minimise le MAE conduira à des prévisions de la médiane, tandis que la minimisation du RMSE conduira à des …

20 forecasting mean median rms mae

2

Pensée bayésienne sur le sur-ajustement

J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir …

20 bayesian cross-validation predictive-models validation regression-strategies

5

Pourquoi l'ingénierie des fonctionnalités fonctionne-t-elle?

Récemment, j'ai appris que la création de fonctionnalités est l'un des moyens de trouver de meilleures solutions aux problèmes de ML. On peut le faire en additionnant par exemple deux fonctionnalités. Par exemple, nous possédons deux fonctionnalités "attaque" et "défense" d'une sorte de héros. Nous créons ensuite une fonctionnalité supplémentaire …

20 machine-learning feature-construction

1

Différence entre les données manquantes et les données rares dans les algorithmes d'apprentissage automatique

Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où …

20 machine-learning dataset missing-data sparse

2

Comment est-il logique de faire OLS après la sélection de variable LASSO?

Récemment, j'ai découvert que dans la littérature d'économétrie appliquée, lorsqu'il s'agit de problèmes de sélection de caractéristiques, il n'est pas rare d'effectuer LASSO suivi d'une régression OLS en utilisant les variables sélectionnées. Je me demandais comment qualifier la validité d'une telle procédure. Cela causera-t-il des problèmes tels que des variables …

20 regression feature-selection econometrics least-squares lasso

2

Quels sont / sont les prieurs implicites dans les statistiques fréquentistes?

J'ai entendu dire que Jaynes prétend que les fréquentistes opèrent avec un "a priori implicite". Quels sont ou sont ces prieurs implicites? Cela signifie-t-il que les modèles fréquentistes sont tous des cas particuliers de modèles bayésiens à découvrir?

20 bayesian prior posterior frequentist

2

De la distribution uniforme à la distribution exponentielle et vice-versa

Ceci est probablement une question triviale, mais ma recherche a été infructueuse jusqu'à présent, y compris cet article wikipedia , et le « Recueil des distributions » le document . Si a une distribution uniforme, cela signifie-t-il que suit une distribution exponentielle?e XXXXeXeXe^X De même, si suit une distribution exponentielle, …

20 distributions data-transformation exponential uniform

4

Différence entre la rétroaction RNN et LSTM / GRU

J'essaie de comprendre différentes architectures de réseaux de neurones récurrents (RNN) à appliquer aux données de séries chronologiques et je suis un peu confus avec les différents noms qui sont fréquemment utilisés lors de la description des RNN. La structure de la mémoire à court terme à long terme (LSTM) …

20 neural-networks lstm rnn

3

Comment utiliser correctement l'arrêt précoce pour former un réseau neuronal profond?

J'ai un modèle de réseau neuronal profond et je dois le former sur mon ensemble de données qui comprend environ 100 000 exemples, mes données de validation contiennent environ 1 000 exemples. Parce qu'il faut du temps pour former chaque exemple (environ 0,5 s pour chaque exemple) et afin d'éviter …

20 neural-networks deep-learning

2

Contenu d'un nom: précision (inverse de la variance)

Intuitivement, la moyenne n'est que la moyenne des observations. La variance est la différence entre ces observations et la moyenne. Je voudrais savoir pourquoi l'inverse de la variance est connu comme la précision. Quelle intuition pouvons-nous en tirer? Et pourquoi la matrice de précision est-elle aussi utile que la matrice …

20 normal-distribution multivariate-analysis terminology intuition

2

Dans les réseaux neuronaux, pourquoi utiliser des méthodes de gradient plutôt que d'autres métaheuristiques?

Dans la formation de réseaux de neurones profonds et peu profonds, pourquoi les méthodes de gradient (par exemple descente de gradient, Nesterov, Newton-Raphson) sont-elles couramment utilisées, par opposition à d'autres métaheuristiques? Par métaheuristique, j'entends des méthodes telles que le recuit simulé, l'optimisation des colonies de fourmis, etc., qui ont été …

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Comprendre la dérivation du compromis biais-variance

Je lis le chapitre sur le compromis biais-variance des éléments de l'apprentissage statistique et j'ai un doute dans la formule de la page 29. Que les données proviennent d'un modèle tel que où est aléatoire nombre avec la valeur attendue et la variance . Soit la valeur d'erreur attendue du …

20 machine-learning unbiased-estimator mse bias-variance-tradeoff

2

Quelles méthodes d'optimisation fonctionnent le mieux pour les LSTM?

J'ai utilisé theeano pour expérimenter avec des LSTM et je me demandais quelles méthodes d'optimisation (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) fonctionnent le mieux pour les LSTM? Existe-t-il des documents de recherche sur ce sujet? De plus, la réponse dépend-elle du type d'application pour laquelle j'utilise le LSTM? Si c'est …

20 machine-learning neural-networks optimization lstm

1

Comment LDA, une technique de classification, sert également de technique de réduction de dimensionnalité comme l'ACP

Dans cet article , l'auteur relie l'analyse discriminante linéaire (LDA) à l'analyse en composantes principales (ACP). Avec mes connaissances limitées, je ne suis pas en mesure de comprendre comment LDA peut être quelque peu similaire à PCA. J'ai toujours pensé que LDA était une forme d'algorithme de classification, similaire à …

20 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

Tracés résiduels: pourquoi tracer en fonction des valeurs ajustées et non des valeurs

Dans le contexte de la régression OLS, je comprends qu'un tracé résiduel (vs valeurs ajustées) est conventionnellement considéré pour tester la variance constante et évaluer la spécification du modèle. Pourquoi les résidus sont-ils tracés par rapport aux ajustements, et non par les valeurs ? En quoi les informations diffèrent-elles de …

20 regression residuals