Statistiques et Big Data

2

Tracer des intervalles de confiance pour les probabilités prédites à partir d'une régression logistique

Ok, j'ai une régression logistique et j'ai utilisé la predict()fonction pour développer une courbe de probabilité basée sur mes estimations. ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") C'est très bien, …

20 r logistic confidence-interval

4

Quelle est la distribution de la moyenne arrondie des variables aléatoires de Poisson?

Si j'ai des variables aléatoires qui sont des distributions de Poisson avec les paramètres , quelle est la distribution de (c'est-à-dire le plancher entier de la moyenne)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor Une somme de Poissons est également Poisson, mais je ne suis pas assez confiant dans les statistiques pour déterminer s'il …

20 poisson-distribution average

1

Quelle est l'utilité de la ligne produite par qqline () dans R?

La qqnorm()fonction R produit un tracé QQ normal et qqline()ajoute une ligne qui passe par les premier et troisième quartiles. Quelle est l'origine de cette ligne? Est-il utile de vérifier la normalité? Ce n'est pas la ligne classique (la diagonale éventuellement après une mise à l'échelle linéaire).y= xy=Xy=x Voici un …

20 r normal-distribution qq-plot

2

Test t apparié comme cas particulier de la modélisation linéaire à effets mixtes

Nous savons qu'un test t apparié n'est qu'un cas particulier d'ANOVA à mesures répétées unidirectionnelles (ou intra-sujet) ainsi que d'un modèle linéaire à effets mixtes, qui peut être démontré avec la fonction lme () du paquet nlme dans R comme indiqué ci-dessous. #response data from 10 subjects under two conditions …

20 r mixed-model t-test repeated-measures lme4-nlme

3

L'algorithme MIC pour détecter les corrélations non linéaires peut-il être expliqué intuitivement?

Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les variables. De plus, les instructions pour son …

20 correlation nonparametric bioinformatics information-theory mutual-information

3

Quand faut-il utiliser la régression multiple avec codage fictif vs ANCOVA?

J'ai récemment analysé une expérience qui a manipulé 2 variables catégorielles et une variable continue en utilisant ANCOVA. Cependant, un examinateur a suggéré que la régression multiple avec la variable catégorielle codée comme variables fictives est un test plus approprié pour les expériences avec des variables catégorielles et continues. Quand …

20 regression multiple-regression ancova categorical-encoding

2

Construire un modèle linéaire pour un rapport vs pourcentage?

Supposons que je veuille construire un modèle pour prédire une sorte de ratio ou de pourcentage. Par exemple, disons que je veux prédire le nombre de garçons par rapport aux filles qui assisteront à une fête, et les caractéristiques de la fête que je peux utiliser dans le modèle sont …

20 regression logistic

2

L'ordre des variables dans l'ANOVA est important, n'est-ce pas?

Ai-je raison de comprendre que l'ordre dans lequel les variables sont spécifiées dans une ANOVA multifactorielle fait une différence mais que l'ordre n'a pas d'importance lors d'une régression linéaire multiple? Donc, en supposant un résultat tel que la perte de sang mesurée y et deux variables catégorielles méthode d'adénoïdectomie a …

20 regression hypothesis-testing anova unbalanced-classes sums-of-squares

3

Pourquoi supprimerait-on l'ordonnée à l'origine en régression linéaire?

Dans un certain nombre de progiciels statistiques, y compris SAS, SPSS et peut-être plus, il existe une option pour "supprimer l'interception". Pourquoi voudriez-vous faire ça?

20 regression

1

Dans les études d'association à l'échelle du génome, quels sont les principaux composants?

Dans les études d'association à l'échelle du génome (GWAS): Quels sont les principaux composants? Pourquoi sont-ils utilisés? Comment sont-ils calculés? Une étude d'association à l'échelle du génome peut-elle être réalisée sans utiliser l'ACP?

20 pca genetics gwas

4

Analyse de survie: temps continu vs temps discret

Je ne sais pas trop comment décider de traiter le temps comme continu ou discret dans l'analyse de survie. Plus précisément, je veux utiliser l'analyse de survie pour identifier les variables au niveau de l'enfant et du ménage qui ont le plus grand écart dans leur impact sur la survie …

20 survival ties

7

Quelles sont les alternatives à un boxplot?

Je travaille sur la création d'un site Web, qui affiche les données du recensement pour un utilisateur de polygones sélectionnés et souhaite afficher graphiquement la distribution des différents paramètres (un graphique par paramètre). Les données ont généralement les propriétés suivantes: La taille de l'échantillon a tendance à être grande (disons …

20 distributions data-visualization boxplot

3

Moments d'une distribution - toute utilisation pour des moments partiels ou supérieurs?

Il est habituel d'utiliser les deuxième, troisième et quatrième moments d'une distribution pour décrire certaines propriétés. Les moments partiels ou les moments supérieurs au quatrième décrivent-ils des propriétés utiles d'une distribution?

20 distributions moments partial-moments

6

Toujours signaler les erreurs standard robustes (blanches)?

Il a été suggéré par Angrist et Pischke que les erreurs-types robustes (c.-à-d. Robustes à l'hétéroscédasticité ou aux variations inégales) sont signalées d'office plutôt que de les tester. Deux questions: Quel est l'impact sur les erreurs standard de le faire en cas d'homoscédasticité? Quelqu'un le fait-il réellement dans son travail?

20 regression standard-error heteroscedasticity robust-standard-error

9

Combien de retards utiliser dans le test Ljung-Box d'une série chronologique?

Une fois qu'un modèle ARMA est adapté à une série chronologique, il est courant de vérifier les résidus via le test de portemanteau de Ljung-Box (entre autres tests). Le test Ljung-Box renvoie une valeur ap. Il a un paramètre, h , qui est le nombre de retards à tester. Certains …

20 time-series