Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données



5
Comment un chercheur individuel devrait-il penser le taux de fausses découvertes?
J'ai essayé de comprendre comment le taux de fausses découvertes (FDR) devrait éclairer les conclusions de chaque chercheur. Par exemple, si votre étude manque de puissance, devriez-vous actualiser vos résultats même s'ils sont significatifs à α=.05α=.05\alpha = .05 ? Remarque: je parle du FDR dans le contexte de l'examen des …


3
Quel facteur d'inflation de variance dois-je utiliser: ou ?
Je suis en train d'interpréter les facteurs de la variance de l' inflation à l' aide de la viffonction dans le package R car. La fonction imprime à la fois un généralisé et également . Selon le fichier d'aide , cette dernière valeurVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Pour ajuster la dimension de l'ellipsoïde de …

3
l'opportunité de remettre à l'échelle l'indicateur / les prédicteurs binaires / fictifs pour LASSO
Pour le LASSO (et d'autres procédures de sélection de modèle), il est crucial de redimensionner les prédicteurs. La recommandation générale que je suis consiste simplement à utiliser une normalisation de 0 moyenne, 1 écart-type pour les variables continues. Mais que faire avec les nuls? Par exemple, certains exemples appliqués de …

3
Pourquoi une matrice de covariance d'échantillon est-elle singulière lorsque la taille de l'échantillon est inférieure au nombre de variables?
Disons que j'ai une distribution gaussienne multivariée à dimensions. Je suppose observations (chacun d'eux un -vector) à partir de cette distribution et calculer la matrice de covariance d'échantillon . Dans cet article , les auteurs déclarent que la matrice de covariance de l'échantillon calculée avec est singulière.n p S p …

5
Comment dériver l'estimateur des moindres carrés pour la régression linéaire multiple?
Dans le cas de régression linéaire simple , vous pouvez dériver l'estimateur des moindres carrés sorte que vous n'avez pas besoin de connaître pour estimery=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 Supposons que j'ai , comment puis-je dériver sans estimer ? ou n'est-ce pas possible?y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2


5
Que signifie la profondeur d'interaction dans GBM?
J'avais une question sur le paramètre de profondeur d'interaction en gbm dans R. Cela peut être une question noob, pour laquelle je m'excuse, mais comment le paramètre, qui je crois dénote le nombre de nœuds terminaux dans un arbre, indique fondamentalement X-way interaction entre les prédicteurs? J'essaie juste de comprendre …



5
Comment utiliser le SVD dans le filtrage collaboratif?
Je suis un peu confus avec la façon dont le SVD est utilisé dans le filtrage collaboratif. Supposons que j'ai un graphique social et que je construise une matrice d'adjacence à partir des bords, puis je prends un SVD (oublions la régularisation, les taux d'apprentissage, les optimisations de rareté, etc.), …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.