Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

3
Pourquoi le facteur de normalisation est requis dans le théorème de Bayes?
Le théorème de Bayes va P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} Tout va bien. Mais, j'ai lu quelque part: Fondamentalement, P (données) n'est rien d'autre qu'une constante de normalisation, c'est-à-dire une constante qui fait que la densité postérieure s'intègre à une. Nous savons que 0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 1 et …

4
Regroupement d'une matrice de corrélation
J'ai une matrice de corrélation qui indique comment chaque élément est corrélé à l'autre élément. Donc pour un N items, j'ai déjà une matrice de corrélation N * N. En utilisant cette matrice de corrélation, comment puis-je regrouper les N éléments dans M bacs afin que je puisse dire que …



2
Spécification d'un modèle de différence dans les différences avec plusieurs périodes
Lorsque j’estime un modèle de différence dans les différences avec deux périodes, le modèle de régression équivalent serait une. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} où est un mannequin qui est égal à 1 si l'observation provient du groupe de traitementTreatmentTreatmentTreatment et est un mannequin qui …

2
Le caret train fonctionne-t-il pour la validation croisée de glmnet pour alpha et lambda?
Le caretpackage R effectue -t-il une validation croisée sur alphaet lambdapour le glmnetmodèle? Exécuter ce code, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl …

4
Génération de variables aléatoires à partir d'un mélange de distributions normales
Comment puis-je échantillonner à partir d'une distribution de mélange, et en particulier d'un mélange de distributions normales dans R? Par exemple, si je voulais échantillonner à partir de: 0,3× N( 0 , 1 )+0,5× N( 10 , 1 )+0,2× N( 3 , .1 )0,3×N(0,1)+0,5×N(dix,1)+0,2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) comment …

3
Approche plus douce des statistiques bayésiennes
J'ai récemment commencé à lire "Introduction to Bayesian Statistics" 2nd Edition by Bolstad. J'ai eu une classe de statistiques d'introduction qui couvrait principalement des tests statistiques et je suis presque à travers une classe d'analyse de régression. Quels autres livres puis-je utiliser pour compléter ma compréhension de celui-ci? Je l'ai …

2
Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez les poids à la même valeur?
Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez tous les poids à la même valeur (disons 0,5), mais fonctionne bien lorsque des nombres aléatoires sont donnés? L'algorithme ne devrait-il pas calculer l'erreur et travailler à partir de là, malgré le fait que les poids soient initialement les mêmes?


3
Comment interpréter le terme d'interception dans un GLM?
J'utilise R et j'ai analysé mes données avec GLM avec lien binomial. Je veux savoir quelle est la signification de l'interception dans le tableau de sortie. L'ordonnée à l'origine pour l'un de mes modèles est significativement différente, mais la variable ne l'est pas. Qu'est-ce que ça veut dire? Quelle est …


5
Pourquoi s'embêter avec des approximations de rang bas?
Si vous avez une matrice avec n lignes et m colonnes, vous pouvez utiliser SVD ou d'autres méthodes pour calculer une approximation de bas rang de la matrice donnée. Cependant, l'approximation de bas rang aura toujours n lignes et m colonnes. Comment les approximations de bas rang peuvent-elles être utiles …

4
Intuition statistique / sens des données
Je suis un étudiant de deuxième année de premier cycle, étudiant en mathématiques, et j'ai parlé à l'un de mes professeurs de la différence entre la capacité mathématique et la capacité statistique. L'une des principales différences qu'il a évoquées est le «sens des données» qu'il a expliqué comme une combinaison …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.