Statistiques et Big Data

3

Pourquoi le facteur de normalisation est requis dans le théorème de Bayes?

Le théorème de Bayes va P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} Tout va bien. Mais, j'ai lu quelque part: Fondamentalement, P (données) n'est rien d'autre qu'une constante de normalisation, c'est-à-dire une constante qui fait que la densité postérieure s'intègre à une. Nous savons que 0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 1 et …

20 probability bayesian conditional-probability bayes

4

Regroupement d'une matrice de corrélation

J'ai une matrice de corrélation qui indique comment chaque élément est corrélé à l'autre élément. Donc pour un N items, j'ai déjà une matrice de corrélation N * N. En utilisant cette matrice de corrélation, comment puis-je regrouper les N éléments dans M bacs afin que je puisse dire que …

20 clustering python k-means

4

"La surface totale sous une fonction de densité de probabilité est 1" - par rapport à quoi?

Conceptuellement, je saisis la signification de l'expression "la surface totale sous un PDF est de 1". Cela devrait signifier que les chances que le résultat se situe dans l'intervalle total des possibilités sont de 100%. Mais je ne peux pas vraiment le comprendre d'un point de vue "géométrique". Si, par …

20 probability pdf integral

2

Choisir entre test et test

Contexte: je fais une présentation à des collègues de travail sur le test d'hypothèse, et je comprends la plupart du temps, mais il y a un aspect que je me noue en essayant de comprendre et d'expliquer aux autres. C'est ce que je pense savoir (veuillez corriger en cas d'erreur!) …

20 hypothesis-testing normal-distribution t-test assumptions z-test

2

Spécification d'un modèle de différence dans les différences avec plusieurs périodes

Lorsque j’estime un modèle de différence dans les différences avec deux périodes, le modèle de régression équivalent serait une. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} où est un mannequin qui est égal à 1 si l'observation provient du groupe de traitementTreatmentTreatmentTreatment et est un mannequin qui …

20 regression modeling econometrics panel-data difference-in-difference

2

Le caret train fonctionne-t-il pour la validation croisée de glmnet pour alpha et lambda?

Le caretpackage R effectue -t-il une validation croisée sur alphaet lambdapour le glmnetmodèle? Exécuter ce code, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl …

20 r machine-learning cross-validation caret glmnet

4

Génération de variables aléatoires à partir d'un mélange de distributions normales

Comment puis-je échantillonner à partir d'une distribution de mélange, et en particulier d'un mélange de distributions normales dans R? Par exemple, si je voulais échantillonner à partir de: 0,3× N( 0 , 1 )+0,5× N( 10 , 1 )+0,2× N( 3 , .1 )0,3×N(0,1)+0,5×N(dix,1)+0,2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) comment …

20 r random-generation mixture

3

Approche plus douce des statistiques bayésiennes

J'ai récemment commencé à lire "Introduction to Bayesian Statistics" 2nd Edition by Bolstad. J'ai eu une classe de statistiques d'introduction qui couvrait principalement des tests statistiques et je suis presque à travers une classe d'analyse de régression. Quels autres livres puis-je utiliser pour compléter ma compréhension de celui-ci? Je l'ai …

20 hypothesis-testing bayesian

2

Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez les poids à la même valeur?

Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez tous les poids à la même valeur (disons 0,5), mais fonctionne bien lorsque des nombres aléatoires sont donnés? L'algorithme ne devrait-il pas calculer l'erreur et travailler à partir de là, malgré le fait que les poids soient initialement les mêmes?

20 machine-learning neural-networks backpropagation

2

Que se passe-t-il lorsque j'inclus une variable au carré dans ma régression?

Je commence par ma régression OLS: où D est une variable fictive, les estimations deviennent différentes de zéro avec une faible valeur de p. Je fais ensuite un test Ramsey RESET et constate que j'ai une mauvaise déformation de l'équation, j'inclus donc au carré x: y = β 0 + …

20 regression multiple-regression interpretation least-squares polynomial

3

Comment interpréter le terme d'interception dans un GLM?

J'utilise R et j'ai analysé mes données avec GLM avec lien binomial. Je veux savoir quelle est la signification de l'interception dans le tableau de sortie. L'ordonnée à l'origine pour l'un de mes modèles est significativement différente, mais la variable ne l'est pas. Qu'est-ce que ça veut dire? Quelle est …

20 r generalized-linear-model

2

Pourquoi les distributions de probabilité sont-elles désignées par un tilde?

Quelle est la signification du tilde lors de la spécification des distributions de probabilité? Par exemple: Z∼ Normal ( 0 , 1 ) .Z∼Normal(0,1).Z \sim \mbox{Normal}(0,1).

20 probability distributions notation

5

Pourquoi s'embêter avec des approximations de rang bas?

Si vous avez une matrice avec n lignes et m colonnes, vous pouvez utiliser SVD ou d'autres méthodes pour calculer une approximation de bas rang de la matrice donnée. Cependant, l'approximation de bas rang aura toujours n lignes et m colonnes. Comment les approximations de bas rang peuvent-elles être utiles …

20 r matrix approximation

4

Intuition statistique / sens des données

Je suis un étudiant de deuxième année de premier cycle, étudiant en mathématiques, et j'ai parlé à l'un de mes professeurs de la différence entre la capacité mathématique et la capacité statistique. L'une des principales différences qu'il a évoquées est le «sens des données» qu'il a expliqué comme une combinaison …

20 references philosophical

5

Existe-t-il une fonction R qui calculera la matrice de dissimilarité cosinus? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . Je voudrais faire une carte thermique avec un regroupement de lignes basé sur les …

20 r clustering similarities