Statistiques et Big Data

4

Pour tracer avec R, dois-je apprendre ggplot2 ou ggvis?

Pour tracer avec R, dois-je apprendre ggplot2 ou ggvis? Je ne veux pas nécessairement apprendre les deux si l'un d'eux est supérieur à tous égards. Pourquoi la communauté R continue-t-elle de créer de nouveaux packages avec des fonctionnalités qui se chevauchent? Le billet de blog d'introduction ne mentionne pas pourquoi …

38 r data-visualization software

3

Quelle est la signification d'un intervalle de confiance pris à partir de rééchantillons bootstrapped?

J'ai consulté de nombreuses questions sur ce site concernant l'amorçage et les intervalles de confiance, mais je suis toujours confus. Une partie de la raison de ma confusion tient probablement au fait que mes connaissances en statistiques ne sont pas suffisamment avancées pour comprendre un grand nombre de réponses. Je …

38 confidence-interval bootstrap

3

Pourquoi la régression polynomiale est-elle considérée comme un cas particulier de régression linéaire multiple?

Si la régression polynomiale modélise les relations non linéaires, comment peut-elle être considérée comme un cas particulier de régression linéaire multiple? Wikipedia note que "Bien que la régression polynomiale adapte un modèle non linéaire aux données, elle est linéaire en tant que problème d’estimation statistique, en ce sens que la …

38 regression multiple-regression linear-model nonlinear-regression polynomial

2

Quelle est la différence entre la régression quantile conditionnelle et inconditionnelle?

L'estimateur de régression de quantile conditionnel de Koenker et Basset (1978) pour le quantile est défini comme suit: où \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) est une fonction de repondération (appelée fonction "check") des résidus u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} …

38 quantile-regression

5

Prédiction dans la régression de Cox

Je fais une régression multivariée de Cox, j'ai mes variables indépendantes significatives et mes valeurs bêta. Le modèle correspond très bien à mes données. Maintenant, j'aimerais utiliser mon modèle et prédire la survie d'une nouvelle observation. Je ne sais pas comment faire cela avec un modèle de Cox. Dans une …

38 regression survival prediction cox-model

3

Pourquoi les classificateurs bayésiens naïfs fonctionnent-ils si bien?

Les classificateurs Naive Bayes sont un choix populaire pour les problèmes de classification. Il y a plusieurs raisons à cela, notamment: "Zeitgeist" - une notoriété généralisée après le succès des filtres anti-spam il y a une dizaine d'années Facile à écrire Le modèle de classificateur est rapide à construire Le …

38 classification naive-bayes

2

Quand les régressions de Poisson et binomiales négatives correspondent-elles aux mêmes coefficients?

J'ai remarqué que dans R, les régressions de Poisson et binomiales négatives (NB) semblent toujours correspondre aux mêmes coefficients pour les prédicteurs catégoriels, mais non continus. Par exemple, voici une régression avec un prédicteur catégorique: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) …

38 regression negative-binomial poisson-regression

2

Qu'est-ce que l'identifiabilité du modèle?

Je sais qu'avec un modèle non identifiable, on peut dire que les données sont générées par de multiples assignations différentes aux paramètres du modèle. Je sais qu'il est parfois possible de contraindre des paramètres afin qu'ils soient tous identifiables, comme dans l'exemple de Cassella & Berger, 2e éd, section 11.2. …

38 identifiability

9

Quelle est la relation entre et dans ce graphique?

Quelle est la relation entre YYY et XXX dans le graphique suivant? À mon avis, il y a une relation linéaire négative, mais comme nous avons beaucoup de valeurs aberrantes, la relation est très faible. Ai-je raison? Je veux apprendre comment expliquer les diagrammes de dispersion.

38 self-study correlation scatterplot

6

Quel est le lien entre les régions crédibles et les tests d’hypothèses bayésiennes?

Dans les statistiques fréquentistes, il existe un lien étroit entre les intervalles de confiance et les tests. Utilisation de l' inférence sur μμ\mu dans la N(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2) la distribution , par exemple, le 1−α1−α1-\alpha intervalle de confiance x¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n} contient toutes les valeurs deμμ\muqui ne sont pas rejetées par …

38 hypothesis-testing bayesian confidence-interval frequentist credible-interval

7

Y at-il un bon navigateur / visualiseur pour voir un jeu de données R (fichier .rda)

Je souhaite parcourir un fichier .rda (jeu de données R). Je sais à propos de la View(datasetname)commande. Le R.app par défaut fourni pour Mac n’a pas un très bon navigateur pour les données (il ouvre une fenêtre dans X11). J'aime le navigateur de données RStudio qui s'ouvre avec la Viewcommande. …

38 r

8

Est-il valide d’inclure une mesure de référence en tant que variable de contrôle lors du test de l’effet d’une variable indépendante sur les scores de changement?

J'essaie d'exécuter une régression OLS: DV: Variation du poids sur un an (poids initial - poids final) IV: Que vous exerciez ou non. Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure une variable …

38 regression repeated-measures least-squares change-scores

5

Séries chronologiques 'clustering' in R

J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2 T3 .... TN …

38 r time-series clustering cointegration

8

Comment générer efficacement des matrices de corrélation positives-semi-définies aléatoires?

J'aimerais pouvoir générer efficacement des matrices de corrélation positive semi-définie (PSD). Ma méthode ralentit considérablement lorsque j'augmente la taille des matrices à générer. Pourriez-vous suggérer des solutions efficaces? Si vous connaissez des exemples dans Matlab, je vous en serais très reconnaissant. Lors de la génération d'une matrice de corrélation PSD, …

38 random-generation correlation-matrix

9

Comment modéliser efficacement la somme des variables aléatoires de Bernoulli?

Je suis en train de modéliser une variable aléatoire ( ) qui est la somme d'environ 15 à 40 000 variables aléatoires indépendantes de Bernoulli ( ), chacune avec une probabilité de réussite différente ( ). Formellement, où et \ Pr (X_i = 0) = 1-p_i .X i p i …

38 r distributions binomial random-variable poisson-binomial