Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
J'ai effectué une régression sur les comtés américains et je vérifie la colinéarité dans mes variables «indépendantes». Les diagnostics de régression de Belsley, Kuh et Welsch suggèrent d'examiner l'indice de condition et les proportions de décomposition de la variance: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance …
Quelle est la distribution du coefficient de détermination, ou R au carré, , en régression multiple univariée linéaire sous l'hypothèse nulle ?R 2 R2R^2H 0 : β = 0H0:β=0H_0:\beta=0 Comment cela dépend-il du nombre de prédicteurs et du nombre d'échantillons ? Existe-t-il une expression de forme fermée pour le mode …
Quelqu'un peut-il expliquer les différences et donner des exemples spécifiques sur la façon d'utiliser ces trois analyses? LDA - Analyse discriminante linéaire FDA - Analyse discriminante de Fisher QDA - Analyse quadratique discriminante J'ai cherché partout, mais je n'ai pas trouvé de vrais exemples avec de vraies valeurs pour voir …
Quelle est la meilleure façon de calculer la décomposition en valeurs singulières (SVD) d'une très grande matrice positive (65M x 3,4M) où les données sont extrêmement rares? Moins de 0,1% de la matrice n'est pas nul. J'ai besoin d'un moyen qui: s'inscrira dans la mémoire (je sais qu'il existe des …
J'ai la sortie suivante: Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: …
Lors de la mise en cluster hiérarchique, on peut utiliser de nombreuses métriques pour mesurer la distance entre les clusters. Deux de ces mesures impliquent le calcul des centroïdes et des moyennes des points de données dans les grappes. Quelle est la différence entre la moyenne et le centroïde? N'est-ce …
J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y a-t-il un …
Le test de Mantel est généralement appliqué aux matrices de distance / différence symétriques. D'après ce que je comprends, une hypothèse du test est que la mesure utilisée pour définir les différences doit être au moins une semi-métrique (répondre aux exigences standard d'une métrique mais pas l'inégalité du triangle). L'hypothèse …
Je travaille principalement avec des non-statisticiens dans des domaines tels que la médecine, les sciences sociales et l'éducation. Que je consulte des étudiants diplômés, que j'aide des chercheurs avec des articles ou que je revoie des articles pour des revues, j'ai souvent le problème que quelqu'un (client, auteur, comité de …
Les modèles de sujet populaires comme LDA regroupent généralement les mots qui ont tendance à co-apparaître ensemble dans le même sujet (cluster). Quelle est la principale différence entre de tels modèles de sujet et d'autres approches simples de regroupement basées sur la cooccurrence comme PMI? (PMI signifie Pointwise Mutual Information, …
J'essaie d'effectuer une régression multiple dans R. Cependant, ma variable dépendante a le tracé suivant: Voici une matrice de nuage de points avec toutes mes variables ( WARest la variable dépendante): Je sais que je dois effectuer une transformation sur cette variable (et éventuellement les variables indépendantes?) Mais je ne …
Je sais que la régression linéaire peut être considérée comme "la ligne verticalement la plus proche de tous les points" : Mais il y a une autre façon de le voir, en visualisant l'espace des colonnes, comme "la projection sur l'espace enjambé par les colonnes de la matrice des coefficients" …
Je veux faire un modèle logistique à partir de mes données d'enquête. Il s'agit d'une petite enquête sur quatre colonies résidentielles dans laquelle seulement 154 répondants ont été interrogés. Ma variable dépendante est «transition satisfaisante vers le travail». J'ai constaté que, sur les 154 répondants, 73 ont déclaré avoir effectué …
Il s'agit d'une question complémentaire à ce que Frank Harrell a écrit ici : D'après mon expérience, la taille d'échantillon requise pour que la distribution t soit précise est souvent plus grande que la taille d'échantillon à portée de main. Le test de rang signé de Wilcoxon est extrêmement efficace …
Je me demande comment interpréter les erreurs standard de coefficient d'une régression lors de l'utilisation de la fonction d'affichage dans R. Par exemple dans la sortie suivante: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.