Statistiques et Big Data variance

3

Calculer la variance du coefficient de régression dans la régression linéaire simple

Dans la régression linéaire simple, nous avons , où . J'ai dérivé l'estimateur: où et sont les exemples de moyennes de et .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Maintenant, je …

38 regression mathematical-statistics variance linear-model regression-coefficients

3

Variance des estimations de validation croisée multipliées par sous la forme : quel est le rôle de la «stabilité»?

TL, DR: Il semble que, contrairement aux conseils répétés, la validation croisée "une fois (LOO-CV)" (laissez-passer une fois) - c’est-à-direun CVfois, avec(le nombre de plis) égal à(le d’observations d’entraînement) - fournit des estimations de l’erreur de généralisation qui sont la moindre variable pour tout, et non la plus variable, en …

37 regression machine-learning variance cross-validation predictive-models

6

Pourquoi le dénominateur de l'estimateur de covariance ne serait-il pas n-2 plutôt que n-1?

Le dénominateur de l'estimateur de variance (non biaisé) est car il y a observations et un seul paramètre est estimé.nn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Dans le même esprit, je me demande pourquoi le dénominateur de la covariance ne serait pas lorsque deux paramètres sont estimés?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

4

Comment une distribution peut-elle avoir une moyenne et une variance infinies?

Les exemples suivants pourraient être cités: Une distribution avec une moyenne infinie et une variance infinie. Une distribution avec une variance moyenne et infinie infinie. Une distribution avec une moyenne finie et une variance infinie. Une distribution avec une moyenne et une variance finies. Cela vient de ce que je …

35 distributions variance mean

5

Pourquoi l'augmentation de la taille de l'échantillon réduit-elle la variance (d'échantillonnage)?

Grande image: J'essaie de comprendre comment l'augmentation de la taille de l'échantillon augmente la puissance d'une expérience. Les diapositives de mon conférencier expliquent cela avec une image de 2 distributions normales, une pour l'hypothèse nulle et une pour l'hypothèse alternative et un seuil de décision c entre elles. Ils font …

35 variance sampling power

3

Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la régression logistique appliquée de …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

(Pourquoi) les modèles suralimentés ont-ils tendance à avoir des coefficients élevés?

J'imagine que plus le coefficient d'une variable est grand, plus le modèle doit pouvoir "basculer" dans cette dimension, ce qui augmente les possibilités d'adaptation au bruit. Bien que je pense avoir une idée raisonnable de la relation entre la variance dans le modèle et les coefficients élevés, je ne comprends …

33 regression variance linear-model bias regularization

4

Quelle est la différence entre variance finie et infinie

Quelle est la différence entre variance finie et infinie? Mes statistiques sont plutôt basiques. Wikipedia / Google n'était pas d'une grande aide ici.

33 variance intuition partial-moments

2

Variance d'une fonction d'une variable aléatoire

Disons que nous avons la variable aléatoire XXX avec une variance et une moyenne connues. La question est: quelle est la variance de f(X)f(X)f(X) pour une fonction donnée f. La seule méthode générale que je connaisse est la méthode delta, mais elle ne donne qu’une approximation. Maintenant, je suis intéressé …

33 variance random-variable delta-method

3

Comment calculer la variance regroupée de deux groupes ou plus à partir des variances de groupe connues, des moyennes et de la taille des échantillons?

Supposons qu'il existe éléments divisés en deux groupes ( et ). La variance du premier groupe est et la variance du deuxième groupe est . Les éléments eux-mêmes sont supposés inconnus, mais je connais les moyens et .m+nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n Existe-t-il un moyen de calculer la variance combinée ?σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} La variance ne …

32 variance pooling

1

Variance sur la somme des valeurs prédites à partir d'un modèle à effets mixtes sur une série temporelle

J'ai un modèle à effets mélangés (en fait, un modèle mélangé additif généralisé) qui me donne des prévisions pour une série temporelle. Pour contrer l'autocorrélation, j'utilise un modèle corCAR1, compte tenu du fait qu'il me manque des données. Les données sont supposées me donner une charge totale, je dois donc …

32 mixed-model variance random-variable

2

Variance du produit des variables dépendantes

Quelle est la formule de variance du produit des variables dépendantes? Dans le cas de variables indépendantes, la formule est simple: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Mais quelle est la formule des variables corrélées? Au fait, comment puis-je …

32 correlation variance

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

6

Test de variance finie?

Est-il possible de tester la finitude (ou l'existence) de la variance d'une variable aléatoire dans un échantillon? En tant que valeur nulle, soit {la variance existe et est finie} soit {la variance n'existe pas / est infinie} serait acceptable. Sur le plan philosophique (et sur le plan du calcul), cela …

29 hypothesis-testing variance central-limit-theorem

4

Comment mesurer la non-uniformité d'une distribution?

J'essaie de trouver une métrique pour mesurer la non-uniformité d'une distribution pour une expérience que je lance. J'ai une variable aléatoire qui devrait être uniformément distribuée dans la plupart des cas, et j'aimerais pouvoir identifier (et peut-être mesurer le degré de) des exemples d'ensembles de données où la variable n'est …

28 distributions variance random-variable uniform

Questions marquées «variance»