Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données



3
Comment calculer la variance regroupée de deux groupes ou plus à partir des variances de groupe connues, des moyennes et de la taille des échantillons?
Supposons qu'il existe éléments divisés en deux groupes ( et ). La variance du premier groupe est et la variance du deuxième groupe est . Les éléments eux-mêmes sont supposés inconnus, mais je connais les moyens et .m+nm+nm+nmmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n Existe-t-il un moyen de calculer la variance combinée ?σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} La variance ne …
32 variance  pooling 

2
Existe-t-il un exemple de l’inégalité unilatérale de Chebyshev?
Je suis intéressé par la version unilatérale suivante de Cantelli de l'inégalité de Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. En gros, si vous connaissez la moyenne et la variance de la population, vous pouvez calculer la limite supérieure de la …


1
Pourquoi R renvoie-t-il NA sous forme de coefficient lm ()?
J'adapte un lm()modèle à un ensemble de données comprenant des indicateurs pour le trimestre financier (T1, T2, T3, Q4 par défaut). En utilisant lm(Y~., data = data) je reçois un NAcomme coefficient pour Q3, et un avertissement indiquant qu’une variable a été exclue à cause de singularités. Dois-je ajouter une …
32 r  regression 



7
Existe-t-il des algorithmes permettant de calculer les paramètres de régression linéaire ou logistique «en cours d'exécution»?
Un article intitulé «Calcul précis de la variance courante», disponible à l' adresse http://www.johndcook.com/standard_deviation.html, montre comment calculer la moyenne courante, la variance et les écarts types. Existe-t-il des algorithmes dans lesquels les paramètres d'un modèle de régression linéaire ou logistique peuvent être mis à jour de manière "dynamique" de manière …





12
Quel est le concept statistique le plus difficile à saisir?
C'est une question similaire à celle ici , mais suffisamment différente, je pense, pour que cela vaille la peine d'être posée. Je pensais mettre comme point de départ ce que je pense être l’un des plus difficiles à comprendre. Le mien est la différence entre probabilité et fréquence . L'une …
32 teaching 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.