Statistiques et Big Data

2

Différence entre le test de somme de rang Wilcoxon et le test de rang signé Wilcoxon

Je me demandais quelle était la différence théorique entre le Wilcoxon Rank-Sum Test et le Wilcoxon Signed-Rank Test en utilisant des observations appariées. Je sais que le test de Wilcoxon Rank-Sum permet différentes quantités d'observations dans deux échantillons différents, alors que le test Signed-Rank pour les échantillons appariés ne le …

22 paired-data wilcoxon-signed-rank wilcoxon-mann-whitney

2

Génération de données avec une matrice de covariance d'échantillon donnée

Étant donné une matrice de covariance , comment générer des données telles qu'elles auraient l'échantillon de matrice de covariance ?ΣsΣs\boldsymbol \Sigma_sΣ^= ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s Plus généralement: nous sommes souvent intéressés à générer des données à partir d'une densité , avec des données x données à un vecteur de …

22 correlation sampling random-generation covariance-matrix

5

Que faut-il apprendre après Casella & Berger?

Je suis un étudiant diplômé en mathématiques pures avec peu d'expérience en mathématiques appliquées. Depuis l'automne dernier, j'ai suivi des cours sur le livre de Casella & Berger, et j'ai terminé des centaines (230+) de pages de problèmes d'exercice dans le livre. En ce moment, je suis au chapitre 10. …

22 distributions references eda

5

Quelle est la réalité de cette diapositive sur l'apprentissage en profondeur affirmant que toutes les améliorations par rapport aux années 80 ne sont dues qu'à beaucoup plus de données et à des ordinateurs beaucoup plus rapides?

J'écoutais un discours et j'ai vu cette diapositive: Est-ce vrai?

22 deep-learning deep-belief-networks

3

Comment puis-je vérifier si mes données correspondent à une distribution exponentielle?

Comment puis-je vérifier si mes données, par exemple le salaire, proviennent d'une distribution exponentielle continue dans R? Voici l'histogramme de mon échantillon: . Toute aide sera fortement appréciée!

22 r distributions goodness-of-fit exponential

3

Que signifie «toutes choses égales par ailleurs» dans une régression multiple?

Lorsque nous effectuons plusieurs régressions et disons que nous examinons le changement moyen de la variable pour un changement d'une variable , en maintenant toutes les autres variables constantes, à quelles valeurs maintenons-nous les autres variables constantes? Leur moyenne? Zéro? De n'importe quelle valeur?yyyxxx J'ai tendance à penser que c'est …

22 multiple-regression interpretation least-squares regression-coefficients controlling-for-a-variable

3

Avantages de l'utilisation des tracés QQ sur les histogrammes

Dans ce commentaire , Nick Cox a écrit: Le regroupement en classes est une méthode ancienne. Bien que les histogrammes puissent être utiles, les logiciels statistiques modernes facilitent et recommandent d'adapter les distributions aux données brutes. Le regroupement jette simplement les détails cruciaux pour déterminer les distributions plausibles. Le contexte …

22 references histogram binning qq-plot

2

Pourquoi PCA de données au moyen de SVD des données?

Cette question concerne un moyen efficace de calculer les principaux composants. De nombreux textes sur l'ACP linéaire préconisent l'utilisation de la décomposition en valeurs singulières des données casewise . Autrement dit, si nous avons des données et que nous voulons remplacer les variables (ses colonnes ) par des composants principaux, …

22 pca algorithms svd matrix-decomposition

3

Pourquoi l'algorithme de maximisation des attentes est-il utilisé?

D'après le peu que je connais, l'algorithme EM peut être utilisé pour trouver la probabilité maximale lorsque la mise à zéro des dérivées partielles par rapport aux paramètres de la probabilité donne un ensemble d'équations qui ne peuvent pas être résolues analytiquement. Mais l'algorithme EM est-il nécessaire au lieu d'utiliser …

22 expectation-maximization

4

Méthode du score Z de Stouffer: et si on additionne

J'effectue tests statistiques indépendants avec la même hypothèse nulle et je voudrais combiner les résultats en une seule valeur . Il semble qu'il existe deux méthodes "acceptées": la méthode de Fisher et la méthode de Stouffer .NNNppp Ma question concerne la méthode de Stouffer. Pour chaque test séparé, j'obtiens un …

22 hypothesis-testing chi-squared p-value multiple-comparisons combining-p-values

2

Comment fonctionne réellement l'amorçage dans R?

J'ai étudié le package de démarrage dans R et bien que j'aie trouvé un certain nombre de bonnes amorces sur la façon de l'utiliser, je n'ai encore rien trouvé qui décrive exactement ce qui se passe "dans les coulisses". Par exemple, dans cet exemple , le guide montre comment utiliser …

22 r regression bootstrap regression-coefficients

2

Prochaines étapes après «Raisonnement bayésien et apprentissage automatique»

Je passe actuellement par "Raisonnement Bayésien et Apprentissage Machine" par David Barber et c'est un livre extrêmement bien écrit et engageant pour apprendre les fondamentaux. Donc, une question à quelqu'un qui l'a déjà fait. Quels sont les prochains livres que je devrais parcourir après avoir une maîtrise raisonnable de la …

22 machine-learning bayesian references graphical-model

5

Que fait exactement un test non paramétrique et que faites-vous des résultats?

J'ai l'impression que cela a peut-être été demandé ailleurs, mais pas vraiment avec le type de description de base dont j'ai besoin. Je sais que non paramétrique s'appuie sur la médiane au lieu de la moyenne pour comparer ... quelque chose. Je crois également qu'il repose sur des "degrés de …

22 hypothesis-testing nonparametric wilcoxon-mann-whitney

2

Régression pour un modèle de forme ?

J'ai un ensemble de données qui est des statistiques provenant d'un forum de discussion Web. J'examine la distribution du nombre de réponses qu'un sujet devrait avoir. En particulier, j'ai créé un ensemble de données qui contient une liste de nombres de réponses de sujets, puis le nombre de sujets qui …

22 r regression nonlinear-regression

1

Y a-t-il une raison de préférer une mesure spécifique de la multicolinéarité?

Lorsque nous travaillons avec de nombreuses variables d'entrée, nous nous préoccupons souvent de la multicolinéarité . Il existe un certain nombre de mesures de la multicolinéarité qui sont utilisées pour détecter, réfléchir et / ou communiquer la multicolinéarité. Voici quelques recommandations courantes: Le multiple pour une variable particulière R2jRj2R^2_j La …

22 multicollinearity