Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

4
Pour tracer avec R, dois-je apprendre ggplot2 ou ggvis?
Pour tracer avec R, dois-je apprendre ggplot2 ou ggvis? Je ne veux pas nécessairement apprendre les deux si l'un d'eux est supérieur à tous égards. Pourquoi la communauté R continue-t-elle de créer de nouveaux packages avec des fonctionnalités qui se chevauchent? Le billet de blog d'introduction ne mentionne pas pourquoi …


3
Pourquoi la régression polynomiale est-elle considérée comme un cas particulier de régression linéaire multiple?
Si la régression polynomiale modélise les relations non linéaires, comment peut-elle être considérée comme un cas particulier de régression linéaire multiple? Wikipedia note que "Bien que la régression polynomiale adapte un modèle non linéaire aux données, elle est linéaire en tant que problème d’estimation statistique, en ce sens que la …

2
Quelle est la différence entre la régression quantile conditionnelle et inconditionnelle?
L'estimateur de régression de quantile conditionnel de Koenker et Basset (1978) pour le quantile est défini comme suit: où \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) est une fonction de repondération (appelée fonction "check") des résidus u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} …

5
Prédiction dans la régression de Cox
Je fais une régression multivariée de Cox, j'ai mes variables indépendantes significatives et mes valeurs bêta. Le modèle correspond très bien à mes données. Maintenant, j'aimerais utiliser mon modèle et prédire la survie d'une nouvelle observation. Je ne sais pas comment faire cela avec un modèle de Cox. Dans une …


2
Quand les régressions de Poisson et binomiales négatives correspondent-elles aux mêmes coefficients?
J'ai remarqué que dans R, les régressions de Poisson et binomiales négatives (NB) semblent toujours correspondre aux mêmes coefficients pour les prédicteurs catégoriels, mais non continus. Par exemple, voici une régression avec un prédicteur catégorique: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) …

2
Qu'est-ce que l'identifiabilité du modèle?
Je sais qu'avec un modèle non identifiable, on peut dire que les données sont générées par de multiples assignations différentes aux paramètres du modèle. Je sais qu'il est parfois possible de contraindre des paramètres afin qu'ils soient tous identifiables, comme dans l'exemple de Cassella & Berger, 2e éd, section 11.2. …


6
Quel est le lien entre les régions crédibles et les tests d’hypothèses bayésiennes?
Dans les statistiques fréquentistes, il existe un lien étroit entre les intervalles de confiance et les tests. Utilisation de l' inférence sur μμ\mu dans la N(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2) la distribution , par exemple, le 1−α1−α1-\alpha intervalle de confiance x¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n} contient toutes les valeurs deμμ\muqui ne sont pas rejetées par …


8
Est-il valide d’inclure une mesure de référence en tant que variable de contrôle lors du test de l’effet d’une variable indépendante sur les scores de changement?
J'essaie d'exécuter une régression OLS: DV: Variation du poids sur un an (poids initial - poids final) IV: Que vous exerciez ou non. Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure une variable …

5
Séries chronologiques 'clustering' in R
J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2 T3 .... TN …

8
Comment générer efficacement des matrices de corrélation positives-semi-définies aléatoires?
J'aimerais pouvoir générer efficacement des matrices de corrélation positive semi-définie (PSD). Ma méthode ralentit considérablement lorsque j'augmente la taille des matrices à générer. Pourriez-vous suggérer des solutions efficaces? Si vous connaissez des exemples dans Matlab, je vous en serais très reconnaissant. Lors de la génération d'une matrice de corrélation PSD, …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.