Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
Pour tracer avec R, dois-je apprendre ggplot2 ou ggvis? Je ne veux pas nécessairement apprendre les deux si l'un d'eux est supérieur à tous égards. Pourquoi la communauté R continue-t-elle de créer de nouveaux packages avec des fonctionnalités qui se chevauchent? Le billet de blog d'introduction ne mentionne pas pourquoi …
J'ai consulté de nombreuses questions sur ce site concernant l'amorçage et les intervalles de confiance, mais je suis toujours confus. Une partie de la raison de ma confusion tient probablement au fait que mes connaissances en statistiques ne sont pas suffisamment avancées pour comprendre un grand nombre de réponses. Je …
Si la régression polynomiale modélise les relations non linéaires, comment peut-elle être considérée comme un cas particulier de régression linéaire multiple? Wikipedia note que "Bien que la régression polynomiale adapte un modèle non linéaire aux données, elle est linéaire en tant que problème d’estimation statistique, en ce sens que la …
L'estimateur de régression de quantile conditionnel de Koenker et Basset (1978) pour le quantile est défini comme suit: où \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) est une fonction de repondération (appelée fonction "check") des résidus u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} …
Je fais une régression multivariée de Cox, j'ai mes variables indépendantes significatives et mes valeurs bêta. Le modèle correspond très bien à mes données. Maintenant, j'aimerais utiliser mon modèle et prédire la survie d'une nouvelle observation. Je ne sais pas comment faire cela avec un modèle de Cox. Dans une …
Les classificateurs Naive Bayes sont un choix populaire pour les problèmes de classification. Il y a plusieurs raisons à cela, notamment: "Zeitgeist" - une notoriété généralisée après le succès des filtres anti-spam il y a une dizaine d'années Facile à écrire Le modèle de classificateur est rapide à construire Le …
J'ai remarqué que dans R, les régressions de Poisson et binomiales négatives (NB) semblent toujours correspondre aux mêmes coefficients pour les prédicteurs catégoriels, mais non continus. Par exemple, voici une régression avec un prédicteur catégorique: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) …
Je sais qu'avec un modèle non identifiable, on peut dire que les données sont générées par de multiples assignations différentes aux paramètres du modèle. Je sais qu'il est parfois possible de contraindre des paramètres afin qu'ils soient tous identifiables, comme dans l'exemple de Cassella & Berger, 2e éd, section 11.2. …
Quelle est la relation entre YYY et XXX dans le graphique suivant? À mon avis, il y a une relation linéaire négative, mais comme nous avons beaucoup de valeurs aberrantes, la relation est très faible. Ai-je raison? Je veux apprendre comment expliquer les diagrammes de dispersion.
Dans les statistiques fréquentistes, il existe un lien étroit entre les intervalles de confiance et les tests. Utilisation de l' inférence sur μμ\mu dans la N(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2) la distribution , par exemple, le 1−α1−α1-\alpha intervalle de confiance x¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n} contient toutes les valeurs deμμ\muqui ne sont pas rejetées par …
Je souhaite parcourir un fichier .rda (jeu de données R). Je sais à propos de la View(datasetname)commande. Le R.app par défaut fourni pour Mac n’a pas un très bon navigateur pour les données (il ouvre une fenêtre dans X11). J'aime le navigateur de données RStudio qui s'ouvre avec la Viewcommande. …
J'essaie d'exécuter une régression OLS: DV: Variation du poids sur un an (poids initial - poids final) IV: Que vous exerciez ou non. Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure une variable …
J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2 T3 .... TN …
J'aimerais pouvoir générer efficacement des matrices de corrélation positive semi-définie (PSD). Ma méthode ralentit considérablement lorsque j'augmente la taille des matrices à générer. Pourriez-vous suggérer des solutions efficaces? Si vous connaissez des exemples dans Matlab, je vous en serais très reconnaissant. Lors de la génération d'une matrice de corrélation PSD, …
Je suis en train de modéliser une variable aléatoire ( ) qui est la somme d'environ 15 à 40 000 variables aléatoires indépendantes de Bernoulli ( ), chacune avec une probabilité de réussite différente ( ). Formellement, où et \ Pr (X_i = 0) = 1-p_i .X i p i …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.