Statistiques et Big Data

1

Explication du facteur de correction fini

Je comprends que lors de l'échantillonnage à partir d'une population finie et que notre taille d'échantillon est supérieure à 5% de la population, nous devons corriger la moyenne et l'erreur standard de l'échantillon à l'aide de cette formule: FPC= N- nN- 1----√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} Où est la taille de la population …

25 sampling finite-population

4

Et si l'interaction efface mes effets directs dans la régression?

Dans une régression, le terme d'interaction efface les deux effets directs associés. Dois-je abandonner l'interaction ou signaler le résultat? L'interaction ne faisait pas partie de l'hypothèse originale.

25 regression interaction

6

Comment calculer le coefficient de loi de Zipf à partir d'un ensemble de fréquences maximales?

J'ai plusieurs fréquences de requête et j'ai besoin d'estimer le coefficient de la loi de Zipf. Ce sont les fréquences les plus élevées: 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039

25 distributions estimation pareto-distribution zipf

3

Quels sont les avantages de la métrique Wasserstein par rapport à la divergence Kullback-Leibler?

Quelle est la différence pratique entre la métrique de Wasserstein et la divergence de Kullback-Leibler ? La métrique de Wasserstein est également appelée distance du moteur de la Terre . De Wikipédia: La métrique de Wasserstein (ou Vaserstein) est une fonction de distance définie entre les distributions de probabilité sur …

25 distributions kullback-leibler metric wasserstein

2

Comment fonctionne la régression quantile?

J'espère obtenir une explication intuitive et accessible de la régression quantile. Disons que j'ai un simple ensemble de données du résultat YYY et des prédicteurs X1,X2X1,X2X_1, X_2 . Si, par exemple, je lance une régression quantile à .25, .5, .75, et récupère .β0,.25,β1,.25...β2,.75β0,.25,β1,.25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} Les valeurs trouvées simplement en ordonnant les …

25 quantile-regression

3

Analyse quotidienne des séries chronologiques

J'essaie de faire une analyse des séries chronologiques et je suis nouveau dans ce domaine. J'ai un décompte quotidien d'un événement de 2006-2009 et je veux y adapter un modèle de série chronologique. Voici les progrès que j'ai réalisés: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) L'intrigue résultante que j'obtiens est: Afin de …

25 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

1

Spécification de plusieurs effets aléatoires (séparés) dans lme [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 6 mois . Je travaillais dans les packages R nlme et lme4 , …

25 r random-effects-model lme4-nlme

3

Interprétation des termes d'interaction dans la régression logit avec des variables catégorielles

J'ai des données d'une expérience d'enquête dans laquelle les répondants ont été assignés au hasard à l'un des quatre groupes: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Bien que les trois groupes de traitement varient légèrement dans le stimulus appliqué, la principale distinction qui m'importe est entre …

25 r logistic categorical-data interaction interpretation

5

Introduction à l'analyse causale

Quels sont les bons livres qui introduisent l'analyse causale? Je pense à une introduction qui explique à la fois les principes de l'analyse causale et montre comment différentes méthodes statistiques pourraient être utilisées pour appliquer ces principes.

25 references causality

3

Quelles sont les mesures de précision des données multi-étiquettes?

Envisagez un scénario dans lequel vous disposez de la matrice KnownLabel et de la matrice PredictedLabel. Je voudrais mesurer la qualité de la matrice PredictedLabel par rapport à la matrice KnownLabel. Mais le défi ici est que la matrice de KnownLabel possède peu de lignes, un seul 1 et les …

25 machine-learning data-mining multilabel

5

Procédure de clustering où chaque cluster a un nombre égal de points?

J'ai quelques points dans R p , et je veux regrouper les points de sorte que:X= { x1, .. . , xn}X={X1,...,Xn}X=\{x_1,...,x_n\}RpRpR^p Chaque cluster contient un nombre égal d'éléments de . (Supposons que le nombre de clusters divise n .)XXXnnn Chaque grappe est "spatialement cohérente" dans un certain sens, comme …

25 machine-learning clustering k-means unsupervised-learning

4

Variable indépendante = variable aléatoire?

Je suis légèrement confus si une variable indépendante (également appelée prédicteur ou caractéristique) dans un modèle statistique, par exemple le en régression linéaire , est une variable aléatoire?Y = β 0 + β 1 XXXXOui= β0+ β1XOui=β0+β1XY=\beta_0+\beta_1 X

25 regression random-variable experiment-design predictor

2

Pourquoi la variance d'un échantillon change-t-elle si les observations sont dupliquées?

La variance serait une mesure de l'écart. Donc, j'avais pensé que la variance de 3,5est égale à la variance de 3,3,5,5puisque les nombres sont également répartis. Mais ce n'est pas le cas, la variance de 3,5is 2tandis que la variance de 3,3,5,5is 1 1/3. Cela me laisse perplexe, étant donné …

25 variance

2

Comment la prise en charge de la régression vectorielle fonctionne-t-elle intuitivement?

Tous les exemples de SVM sont liés à la classification. Je ne comprends pas comment un SVM pour la régression (support vector regressor) pourrait être utilisé dans la régression. D'après ma compréhension, un SVM maximise la marge entre deux classes pour trouver l'hyperplan optimal. Comment cela pourrait-il fonctionner dans un …

25 regression svm

2

Validation croisée multipliée par 10 vs validation croisée avec sortie unique

Je fais une validation croisée imbriquée. J'ai lu que la validation croisée avec un seul retrait peut être biaisée (je ne me souviens pas pourquoi). Est-il préférable d'utiliser la validation croisée 10 fois ou la validation croisée avec suppression de la mise à part le temps d'exécution plus long pour …

25 machine-learning cross-validation