Statistiques et Big Data

2

Diagnostic de colinéarité problématique uniquement lorsque le terme d'interaction est inclus

J'ai effectué une régression sur les comtés américains et je vérifie la colinéarité dans mes variables «indépendantes». Les diagnostics de régression de Belsley, Kuh et Welsch suggèrent d'examiner l'indice de condition et les proportions de décomposition de la variance: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance …

26 r multicollinearity vif variance-decomposition

2

Quelle est la distribution de en régression linéaire sous l'hypothèse nulle? Pourquoi son mode n'est-il pas nul lorsque ?

Quelle est la distribution du coefficient de détermination, ou R au carré, , en régression multiple univariée linéaire sous l'hypothèse nulle ?R 2 R2R^2H 0 : β = 0H0:β=0H_0:\beta=0 Comment cela dépend-il du nombre de prédicteurs et du nombre d'échantillons ? Existe-t-il une expression de forme fermée pour le mode …

26 regression mathematical-statistics r-squared intuition

2

Trois versions de l'analyse discriminante: différences et comment les utiliser

Quelqu'un peut-il expliquer les différences et donner des exemples spécifiques sur la façon d'utiliser ces trois analyses? LDA - Analyse discriminante linéaire FDA - Analyse discriminante de Fisher QDA - Analyse quadratique discriminante J'ai cherché partout, mais je n'ai pas trouvé de vrais exemples avec de vraies valeurs pour voir …

26 classification discriminant-analysis

2

Comment calculer la SVD d'une énorme matrice clairsemée?

Quelle est la meilleure façon de calculer la décomposition en valeurs singulières (SVD) d'une très grande matrice positive (65M x 3,4M) où les données sont extrêmement rares? Moins de 0,1% de la matrice n'est pas nul. J'ai besoin d'un moyen qui: s'inscrira dans la mémoire (je sais qu'il existe des …

26 svd numerics

3

Comment interpréter les «corrélations d'effets fixes» dans ma sortie glmer?

J'ai la sortie suivante: Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: …

26 mixed-model poisson-distribution lme4-nlme

3

En quoi trouver le centroïde est-il différent de trouver la moyenne?

Lors de la mise en cluster hiérarchique, on peut utiliser de nombreuses métriques pour mesurer la distance entre les clusters. Deux de ces mesures impliquent le calcul des centroïdes et des moyennes des points de données dans les grappes. Quelle est la différence entre la moyenne et le centroïde? N'est-ce …

26 clustering mean

2

Avantages de faire du «double lasso» ou de faire du lasso deux fois?

J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y a-t-il un …

26 regression lasso regularization shrinkage lars

1

Le test de Mantel peut-il être étendu à des matrices asymétriques?

Le test de Mantel est généralement appliqué aux matrices de distance / différence symétriques. D'après ce que je comprends, une hypothèse du test est que la mesure utilisée pour définir les différences doit être au moins une semi-métrique (répondre aux exigences standard d'une métrique mais pas l'inégalité du triangle). L'hypothèse …

26 statistical-significance assumptions distance

5

Stratégies pour introduire des statistiques avancées à divers publics

Je travaille principalement avec des non-statisticiens dans des domaines tels que la médecine, les sciences sociales et l'éducation. Que je consulte des étudiants diplômés, que j'aide des chercheurs avec des articles ou que je revoie des articles pour des revues, j'ai souvent le problème que quelqu'un (client, auteur, comité de …

26 consulting

3

Modèles de sujet et méthodes de cooccurrence de mots

Les modèles de sujet populaires comme LDA regroupent généralement les mots qui ont tendance à co-apparaître ensemble dans le même sujet (cluster). Quelle est la principale différence entre de tels modèles de sujet et d'autres approches simples de regroupement basées sur la cooccurrence comme PMI? (PMI signifie Pointwise Mutual Information, …

26 machine-learning text-mining natural-language topic-models

2

Transformer des variables pour une régression multiple dans R

J'essaie d'effectuer une régression multiple dans R. Cependant, ma variable dépendante a le tracé suivant: Voici une matrice de nuage de points avec toutes mes variables ( WARest la variable dépendante): Je sais que je dois effectuer une transformation sur cette variable (et éventuellement les variables indépendantes?) Mais je ne …

26 r regression multiple-regression data-transformation

2

Interprétation géométrique de la régression linéaire pénalisée

Je sais que la régression linéaire peut être considérée comme "la ligne verticalement la plus proche de tous les points" : Mais il y a une autre façon de le voir, en visualisant l'espace des colonnes, comme "la projection sur l'espace enjambé par les colonnes de la matrice des coefficients" …

26 regression intuition geometry

6

Taille de l'échantillon pour la régression logistique?

Je veux faire un modèle logistique à partir de mes données d'enquête. Il s'agit d'une petite enquête sur quatre colonies résidentielles dans laquelle seulement 154 répondants ont été interrogés. Ma variable dépendante est «transition satisfaisante vers le travail». J'ai constaté que, sur les 154 répondants, 73 ont déclaré avoir effectué …

26 logistic sample-size assumptions power unbalanced-classes

2

Quand utiliser le test de somme de rang de Wilcoxon au lieu du test t non apparié?

Il s'agit d'une question complémentaire à ce que Frank Harrell a écrit ici : D'après mon expérience, la taille d'échantillon requise pour que la distribution t soit précise est souvent plus grande que la taille d'échantillon à portée de main. Le test de rang signé de Wilcoxon est extrêmement efficace …

26 t-test wilcoxon-mann-whitney

1

Comment interpréter les erreurs types des coefficients en régression linéaire?

Je me demande comment interpréter les erreurs standard de coefficient d'une régression lors de l'utilisation de la fonction d'affichage dans R. Par exemple dans la sortie suivante: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = …

26 r regression interpretation