Statistiques et Big Data

3

Je préfère de beaucoup le caret pour sa capacité de réglage des paramètres et son interface uniforme, mais j'ai observé qu'il nécessite toujours des ensembles de données complets (c'est-à-dire sans NA) même si le modèle "nu" appliqué autorise les NA. C'est très gênant, car il faut appliquer des méthodes d'imputation …

26 r missing-data data-imputation caret

3

Pourquoi la régression bêta / dirichlet n'est pas considérée comme un modèle linéaire généralisé?

La prémisse est cette citation de la vignette du package R betareg1 . De plus, le modèle partage certaines propriétés (telles que le prédicteur linéaire, la fonction de lien, le paramètre de dispersion) avec les modèles linéaires généralisés (GLM; McCullagh et Nelder 1989), mais ce n'est pas un cas particulier …

26 generalized-linear-model beta-regression dirichlet-regression

3

Quelle est la justification bayésienne pour privilégier les analyses effectuées plus tôt que les autres analyses?

Contexte et exemple empirique J'ai deux études; J'ai mené une expérience (étude 1), puis je l'ai reproduite (étude 2). Dans l'étude 1, j'ai trouvé une interaction entre deux variables; dans l'étude 2, cette interaction était dans la même direction mais non significative. Voici le résumé du modèle de l'étude 1: …

26 bayesian

6

Comment choisir entre le ROC AUC et le score F1?

J'ai récemment terminé un concours Kaggle dans lequel le score roc auc a été utilisé conformément aux exigences du concours. Avant ce projet, j'utilisais normalement le score f1 comme mesure pour mesurer les performances du modèle. À l'avenir, je me demande comment dois-je choisir entre ces deux mesures? Quand les …

26 machine-learning modeling roc scoring-rules

5

La théorie des probabilités est-elle l'étude des fonctions non négatives qui s'intègrent / s'additionnent à une?

C'est probablement une question idiote, mais la théorie des probabilités est-elle l'étude de fonctions qui s'intègrent / s'additionnent à une? MODIFIER. J'ai oublié la non-négativité. La théorie des probabilités est-elle donc l'étude des fonctions non négatives qui s'intègrent / s'additionnent à une?

26 probability mathematical-statistics measure-theory

1

Relation entre Bayes variationnels et EM

J'ai lu quelque part que la méthode variationnelle de Bayes est une généralisation de l'algorithme EM. En effet, les parties itératives des algorithmes sont très similaires. Afin de tester si l'algorithme EM est une version spéciale des Bayes variationnels, j'ai essayé ce qui suit: YYY est des données, est la …

26 bayesian expectation-maximization variational-bayes

1

Un contre tous et un contre un dans svm?

Quelle est la différence entre un classificateur SVM un contre un et un contre un? Est-ce que un contre un signifie un classificateur pour classer tous les types / catégories de la nouvelle image et un contre un signifie que chaque type / catégorie de nouvelle image se classe avec …

26 machine-learning classification svm

2

Pourquoi le LDA scikit-learn de Python ne fonctionne-t-il pas correctement et comment calcule-t-il le LDA via SVD?

J'utilisais l'analyse linéaire discriminante (LDA) de la scikit-learnbibliothèque d'apprentissage automatique (Python) pour réduire la dimensionnalité et j'étais un peu curieux des résultats. Je me demande maintenant ce que fait la LDA scikit-learnpour que les résultats soient différents, par exemple, d'une approche manuelle ou d'une LDA effectuée en R. Ce serait …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

1

Quelle norme d'erreur de reconstruction est minimisée par la matrice d'approximation de bas rang obtenue avec l'ACP?

Étant donné une approximation PCA (ou SVD) de la matrice avec une matrice , nous savons que est la meilleure approximation de de bas rang .X X XXXXX^X^\hat XX^X^\hat XXXX Est-ce conforme à la norme induite∥ ⋅ ∥2∥⋅∥2\parallel \cdot \parallel_2 ∥ ⋅ ∥ F (c'est-à-dire la plus grande norme de …

26 pca svd matrix-decomposition

5

Explication intuitive de la convergence dans la distribution et de la convergence dans la probabilité

Quelle est la différence intuitive entre une variable aléatoire convergeant en probabilité et une variable aléatoire convergeant en distribution? J'ai lu de nombreuses définitions et équations mathématiques, mais cela n'aide pas vraiment. (Veuillez garder à l'esprit que je suis un étudiant de premier cycle étudiant en économétrie.) Comment une variable …

26 distributions random-variable convergence intuition

7

Test d'hypothèse de distribution - quel est l'intérêt de le faire si vous ne pouvez pas «accepter» votre hypothèse nulle?

Divers tests d'hypothèse, tels que le GOF, Kolmogorov-Smirnov, Anderson-Darling, etc., suivent ce format de base:χ2χ2\chi^{2} H0H0H_0 : Les données suivent la distribution donnée. H1H1H_1 : Les données ne suivent pas la distribution donnée. Typiquement, on évalue l'affirmation selon laquelle certaines données données suivent une distribution donnée, et si l'on rejette …

26 hypothesis-testing distributions goodness-of-fit ecdf

1

Distance de l'engin de terre (EMD) entre deux Gaussiens

Existe-t-il une formule sous forme fermée pour (ou une sorte de liaison sur) l'EMD entre x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) et x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?

26 normal-distribution distance

5

Pourquoi ces déclarations ne découlent-elles pas logiquement d'un IC à 95% pour la moyenne?

J'ai lu l'article de Hoekstra et al sur la «Mauvaise interprétation des intervalles de confiance» de 2014, que j'ai téléchargé sur le site Web de Wagenmakers . Sur l'avant-dernière page, l'image suivante apparaît. Selon les auteurs, False est la bonne réponse à toutes ces affirmations. Je ne sais pas très …

26 hypothesis-testing confidence-interval

2

Estimer le quantile de valeur dans un vecteur

J'ai un ensemble de vrais nombres. J'ai besoin d'estimer le quantile d'un nouveau nombre. Existe-t-il un moyen propre de le faire dans R? en général? J'espère que ce n'est pas ultra-trivial ;-) Très apprécié pour votre réponse. PK

26 r

3

Pourquoi les modèles de processus gaussiens sont-ils appelés non paramétriques?

Je suis un peu confus. Pourquoi les processus gaussiens sont-ils appelés modèles non paramétriques? Ils supposent que les valeurs fonctionnelles, ou un sous-ensemble d'entre elles, ont un a priori gaussien avec une moyenne 0 et une fonction de covariance donnée comme fonction du noyau. Ces fonctions du noyau elles-mêmes ont …

26 nonparametric gaussian-process