Questions marquées «rule-of-thumb»

Conseils sur les analyses statistiques qui sont souvent utiles dans la pratique (mais qui ne sont pas toujours garanties de fonctionner).

24
Règles empiriques pour les statistiques «modernes»
J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et …

8
Calculer le nombre optimal de bacs dans un histogramme
Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je devrais avoir …


4
Quelles références faut-il citer pour soutenir l’utilisation de 30 échantillons de taille suffisante?
J'ai lu / entendu à plusieurs reprises que la taille d'échantillon d'au moins 30 unités est considérée comme un "échantillon large" (les hypothèses de normalité des moyennes sont généralement à peu près valables en raison du CLT, ...). Par conséquent, dans mes expériences, je génère généralement des échantillons de 30 …

2
Bonne ressource en ligne avec des conseils sur l'association graphique entre deux variables numériques dans diverses conditions
Le contexte: Au fil du temps, j'ai acquis un ensemble d'heuristiques sur la façon de tracer efficacement l'association entre deux variables numériques. J'imagine que la plupart des gens qui travaillent avec des données auraient un ensemble de règles similaire. Des exemples de telles règles peuvent être: Si l'une des variables …

4
Comment projeter un nouveau vecteur sur l'espace PCA?
Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
ou
Quelqu'un utilise-t-il les métriques L1L1L_1 ou L.5L.5L_.5 pour le clustering, plutôt que L2L2L_2 ? Aggarwal et al., A propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que L1L1L_1 est toujours plus préférable que la métrique de distance euclidienne L2L2L_2 pour …


1
Taille d'échantillon requise pour déterminer laquelle parmi un ensemble de publicités a le taux de clics le plus élevé
Je suis concepteur de logiciels de métier et je travaille sur un projet pour un client, et je voudrais m'assurer que mon analyse est statistiquement solide. Considérez ce qui suit: Nous avons n publicités (n <10), et nous voulons simplement savoir quelle publicité est la plus performante. Notre serveur publicitaire …

4
MANOVA et corrélations entre variables dépendantes: quelle est la force trop forte?
Les variables dépendantes dans une MANOVA ne doivent pas être "trop ​​fortement corrélées". Mais à quel point une corrélation est-elle trop forte? Il serait intéressant de recueillir l'opinion des gens sur cette question. Par exemple, feriez-vous avec MANOVA dans les situations suivantes? Y1 et Y2 sont corrélés avec etp < …



1
Comment formaliser une distribution de probabilité antérieure? Y a-t-il des règles générales ou des conseils à utiliser?
Bien que j'aime à penser que j'ai une bonne compréhension du concept de l'information préalable dans l'analyse statistique et la prise de décision bayésienne, j'ai souvent du mal à comprendre ma demande. Je pense à quelques situations qui illustrent mes luttes et je pense qu'elles ne sont pas correctement traitées …

1
Nombre optimal de cases dans l'histogramme par la règle de Freedman – Diaconis: différence entre le taux théorique et le nombre réel
Wikipédia signale que selon la règle de Freedman et Diaconis, le nombre optimal de casiers dans un histogramme, devrait croître commekkk k ∼n1 / 3k∼n1/3k\sim n^{1/3} où est la taille de l'échantillon.nnn Cependant, si vous regardez la nclass.FDfonction dans R, qui implémente cette règle, au moins avec les données gaussiennes …

1
Règles simples de base pour les statistiques
Dans une expérience binomiale, si nous observons individu positif parmi individus, alors la proportion d'individus positifs est significativement inférieure à avec une erreur de type 1 inférieure et très proche de . Ce fait, parfois appelé "règle des trois", est une conséquence des inégalitésx=0x=0x=0nnn3/n3/n3/n5%5%5\%exp(−np1−p)≤Pr(X=0)≤exp(−np).exp⁡(−np1−p)≤Pr(X=0)≤exp⁡(−np).\exp\left(-\frac{np}{1-p}\right) \leq \Pr(X=0) \leq \exp(-np). Connaissez-vous d'autres …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.