Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Ok, j'ai une régression logistique et j'ai utilisé la predict()fonction pour développer une courbe de probabilité basée sur mes estimations. ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") C'est très bien, …
Si j'ai des variables aléatoires qui sont des distributions de Poisson avec les paramètres , quelle est la distribution de (c'est-à-dire le plancher entier de la moyenne)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor Une somme de Poissons est également Poisson, mais je ne suis pas assez confiant dans les statistiques pour déterminer s'il …
La qqnorm()fonction R produit un tracé QQ normal et qqline()ajoute une ligne qui passe par les premier et troisième quartiles. Quelle est l'origine de cette ligne? Est-il utile de vérifier la normalité? Ce n'est pas la ligne classique (la diagonale éventuellement après une mise à l'échelle linéaire).y= xy=Xy=x Voici un …
Nous savons qu'un test t apparié n'est qu'un cas particulier d'ANOVA à mesures répétées unidirectionnelles (ou intra-sujet) ainsi que d'un modèle linéaire à effets mixtes, qui peut être démontré avec la fonction lme () du paquet nlme dans R comme indiqué ci-dessous. #response data from 10 subjects under two conditions …
Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les variables. De plus, les instructions pour son …
J'ai récemment analysé une expérience qui a manipulé 2 variables catégorielles et une variable continue en utilisant ANCOVA. Cependant, un examinateur a suggéré que la régression multiple avec la variable catégorielle codée comme variables fictives est un test plus approprié pour les expériences avec des variables catégorielles et continues. Quand …
Supposons que je veuille construire un modèle pour prédire une sorte de ratio ou de pourcentage. Par exemple, disons que je veux prédire le nombre de garçons par rapport aux filles qui assisteront à une fête, et les caractéristiques de la fête que je peux utiliser dans le modèle sont …
Ai-je raison de comprendre que l'ordre dans lequel les variables sont spécifiées dans une ANOVA multifactorielle fait une différence mais que l'ordre n'a pas d'importance lors d'une régression linéaire multiple? Donc, en supposant un résultat tel que la perte de sang mesurée y et deux variables catégorielles méthode d'adénoïdectomie a …
Dans un certain nombre de progiciels statistiques, y compris SAS, SPSS et peut-être plus, il existe une option pour "supprimer l'interception". Pourquoi voudriez-vous faire ça?
Dans les études d'association à l'échelle du génome (GWAS): Quels sont les principaux composants? Pourquoi sont-ils utilisés? Comment sont-ils calculés? Une étude d'association à l'échelle du génome peut-elle être réalisée sans utiliser l'ACP?
Je ne sais pas trop comment décider de traiter le temps comme continu ou discret dans l'analyse de survie. Plus précisément, je veux utiliser l'analyse de survie pour identifier les variables au niveau de l'enfant et du ménage qui ont le plus grand écart dans leur impact sur la survie …
Je travaille sur la création d'un site Web, qui affiche les données du recensement pour un utilisateur de polygones sélectionnés et souhaite afficher graphiquement la distribution des différents paramètres (un graphique par paramètre). Les données ont généralement les propriétés suivantes: La taille de l'échantillon a tendance à être grande (disons …
Il est habituel d'utiliser les deuxième, troisième et quatrième moments d'une distribution pour décrire certaines propriétés. Les moments partiels ou les moments supérieurs au quatrième décrivent-ils des propriétés utiles d'une distribution?
Il a été suggéré par Angrist et Pischke que les erreurs-types robustes (c.-à-d. Robustes à l'hétéroscédasticité ou aux variations inégales) sont signalées d'office plutôt que de les tester. Deux questions: Quel est l'impact sur les erreurs standard de le faire en cas d'homoscédasticité? Quelqu'un le fait-il réellement dans son travail?
Une fois qu'un modèle ARMA est adapté à une série chronologique, il est courant de vérifier les résidus via le test de portemanteau de Ljung-Box (entre autres tests). Le test Ljung-Box renvoie une valeur ap. Il a un paramètre, h , qui est le nombre de retards à tester. Certains …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.