Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

2
Tracer des intervalles de confiance pour les probabilités prédites à partir d'une régression logistique
Ok, j'ai une régression logistique et j'ai utilisé la predict()fonction pour développer une courbe de probabilité basée sur mes estimations. ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") C'est très bien, …

4
Quelle est la distribution de la moyenne arrondie des variables aléatoires de Poisson?
Si j'ai des variables aléatoires qui sont des distributions de Poisson avec les paramètres , quelle est la distribution de (c'est-à-dire le plancher entier de la moyenne)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor Une somme de Poissons est également Poisson, mais je ne suis pas assez confiant dans les statistiques pour déterminer s'il …



3
L'algorithme MIC pour détecter les corrélations non linéaires peut-il être expliqué intuitivement?
Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les variables. De plus, les instructions pour son …

3
Quand faut-il utiliser la régression multiple avec codage fictif vs ANCOVA?
J'ai récemment analysé une expérience qui a manipulé 2 variables catégorielles et une variable continue en utilisant ANCOVA. Cependant, un examinateur a suggéré que la régression multiple avec la variable catégorielle codée comme variables fictives est un test plus approprié pour les expériences avec des variables catégorielles et continues. Quand …


2
L'ordre des variables dans l'ANOVA est important, n'est-ce pas?
Ai-je raison de comprendre que l'ordre dans lequel les variables sont spécifiées dans une ANOVA multifactorielle fait une différence mais que l'ordre n'a pas d'importance lors d'une régression linéaire multiple? Donc, en supposant un résultat tel que la perte de sang mesurée y et deux variables catégorielles méthode d'adénoïdectomie a …



4
Analyse de survie: temps continu vs temps discret
Je ne sais pas trop comment décider de traiter le temps comme continu ou discret dans l'analyse de survie. Plus précisément, je veux utiliser l'analyse de survie pour identifier les variables au niveau de l'enfant et du ménage qui ont le plus grand écart dans leur impact sur la survie …
20 survival  ties 

7
Quelles sont les alternatives à un boxplot?
Je travaille sur la création d'un site Web, qui affiche les données du recensement pour un utilisateur de polygones sélectionnés et souhaite afficher graphiquement la distribution des différents paramètres (un graphique par paramètre). Les données ont généralement les propriétés suivantes: La taille de l'échantillon a tendance à être grande (disons …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.