Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données


2
Quelles sont les hypothèses de régression des crêtes et comment les tester?
Considérons le modèle standard de régression multiple où , donc la normalité, l'homoscédasticité et la non corrélation des erreurs sont toutes valables.Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supposons que nous effectuons une régression de crête, en ajoutant la même petite quantité à tous les éléments de la diagonale de :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y …

3
Distribution de la différence entre deux distributions normales
J'ai deux fonctions de densité de probabilité de distributions normales: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } et f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Je recherche la fonction de densité de probabilité de la séparation entre x1x1x_1 …

1
Pourquoi le quasi-Poisson en GLM n'est-il pas traité comme un cas particulier de binôme négatif?
J'essaie d'adapter les modèles linéaires généralisés à certains ensembles de données de comptage qui pourraient ou non être sur-dispersés. Les deux distributions canoniques qui s'appliquent ici sont le binôme de Poisson et négatif (Negbin), avec EV et varianceμμ\mu Vun rP= μVunerP=μVar_P = \mu Vun rNB= μ + μ2θVunerNB=μ+μ2θVar_{NB} = \mu …


4
Pourquoi les données mixtes posent-elles un problème pour les algorithmes de clustering basés sur les euclidiens?
La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des points dans un espace euclidien. C'est un problème bien sûr, car de nombreuses …

3
Corrélations étranges dans les résultats SVD de données aléatoires; ont-ils une explication mathématique ou est-ce un bug LAPACK?
J'observe un comportement très étrange dans le résultat SVD de données aléatoires, que je peux reproduire à la fois dans Matlab et R. Il ressemble à un problème numérique dans la bibliothèque LAPACK; est-ce? Je tire n=1000n=1000n=1000 échantillons de la gaussienne k=2k=2k=2 dimensionnelle avec une moyenne nulle et une covariance …



2
Dans la régression linéaire simple, d'où vient la formule de la variance des résidus?
Selon un texte que j'utilise, la formule de la variance du ithithi^{th} résiduel est donnée par: σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Je trouve cela difficile à croire car le ithithi^{th} résiduel est la différence entre la ithithi^{th} valeur observée et la ithithi^{th} valeur ajustée; si l'on devait calculer la variance …

3
Signification de «nombre de paramètres» dans AIC
Lors du calcul de l'AIC, AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k signifie «nombre de paramètres». Mais qu'est-ce qui compte comme paramètre? Ainsi, par exemple dans le modèle y=ax+by=ax+by = ax + b Est-ce que a et b sont toujours comptés comme paramètres? Et si je ne me soucie …
21 aic 





En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.