Statistiques et Big Data rule-of-thumb

24

Règles empiriques pour les statistiques «modernes»

J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et …

85 modeling eda rule-of-thumb

8

Calculer le nombre optimal de bacs dans un histogramme

Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je devrais avoir …

80 rule-of-thumb histogram

7

Règles empiriques pour la taille minimale de l'échantillon pour la régression multiple

Dans le cadre d'une proposition de recherche en sciences sociales, on m'a posé la question suivante: J'ai toujours choisi 100 + m (m étant le nombre de prédicteurs) lors de la détermination de la taille minimale de l'échantillon pour la régression multiple. Est-ce approprié? Je reçois beaucoup de questions similaires, …

72 regression sample-size power-analysis rule-of-thumb

4

Quelles références faut-il citer pour soutenir l’utilisation de 30 échantillons de taille suffisante?

J'ai lu / entendu à plusieurs reprises que la taille d'échantillon d'au moins 30 unités est considérée comme un "échantillon large" (les hypothèses de normalité des moyennes sont généralement à peu près valables en raison du CLT, ...). Par conséquent, dans mes expériences, je génère généralement des échantillons de 30 …

43 references sample-size normality-assumption central-limit-theorem rule-of-thumb

2

Bonne ressource en ligne avec des conseils sur l'association graphique entre deux variables numériques dans diverses conditions

Le contexte: Au fil du temps, j'ai acquis un ensemble d'heuristiques sur la façon de tracer efficacement l'association entre deux variables numériques. J'imagine que la plupart des gens qui travaillent avec des données auraient un ensemble de règles similaire. Des exemples de telles règles peuvent être: Si l'une des variables …

22 data-visualization correlation teaching rule-of-thumb scatterplot

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

ou

Quelqu'un utilise-t-il les métriques L1L1L_1 ou L.5L.5L_.5 pour le clustering, plutôt que L2L2L_2 ? Aggarwal et al., A propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que L1L1L_1 est toujours plus préférable que la métrique de distance euclidienne L2L2L_2 pour …

14 clustering distance-functions rule-of-thumb

2

Règles «Quand utiliser boxplot et quand barplot» (du pouce?)

Le graphique en boîte et moustache et le graphique à barres sont des graphiques appropriés pour l'ANOVA selon The R Book (Crawley, 2013), mais lequel est le plus approprié ? Je suppose que cela dépend de la situation ... quelqu'un peut-il m'aider?

14 boxplot rule-of-thumb barplot

1

Taille d'échantillon requise pour déterminer laquelle parmi un ensemble de publicités a le taux de clics le plus élevé

Je suis concepteur de logiciels de métier et je travaille sur un projet pour un client, et je voudrais m'assurer que mon analyse est statistiquement solide. Considérez ce qui suit: Nous avons n publicités (n <10), et nous voulons simplement savoir quelle publicité est la plus performante. Notre serveur publicitaire …

11 anova sample-size t-test rule-of-thumb

4

MANOVA et corrélations entre variables dépendantes: quelle est la force trop forte?

Les variables dépendantes dans une MANOVA ne doivent pas être "trop fortement corrélées". Mais à quel point une corrélation est-elle trop forte? Il serait intéressant de recueillir l'opinion des gens sur cette question. Par exemple, feriez-vous avec MANOVA dans les situations suivantes? Y1 et Y2 sont corrélés avec etp < …

11 correlation anova multivariate-analysis rule-of-thumb manova

1

Relation entre le taux d'apprentissage et le nombre de couches cachées?

Existe-t-il une règle empirique entre la profondeur d'un réseau neuronal et le taux d'apprentissage? J'ai remarqué que plus le réseau est profond, plus le taux d'apprentissage doit être faible. Si c'est exact, pourquoi?

10 neural-networks deep-learning hyperparameter rule-of-thumb

1

Histogramme avec bacs uniformes vs non uniformes

Cette question décrit la différence fondamentale entre un histogramme uniforme et non uniforme. Et cette question traite de la règle de base pour choisir le nombre de cases d'un histogramme uniforme qui optimise (dans un certain sens) le degré auquel l'histogramme représente la distribution à partir de laquelle les échantillons …

10 nonparametric outliers histogram rule-of-thumb

1

Comment formaliser une distribution de probabilité antérieure? Y a-t-il des règles générales ou des conseils à utiliser?

Bien que j'aime à penser que j'ai une bonne compréhension du concept de l'information préalable dans l'analyse statistique et la prise de décision bayésienne, j'ai souvent du mal à comprendre ma demande. Je pense à quelques situations qui illustrent mes luttes et je pense qu'elles ne sont pas correctement traitées …

9 bayesian prior rule-of-thumb elicitation

1

Nombre optimal de cases dans l'histogramme par la règle de Freedman – Diaconis: différence entre le taux théorique et le nombre réel

Wikipédia signale que selon la règle de Freedman et Diaconis, le nombre optimal de casiers dans un histogramme, devrait croître commekkk k ∼n1 / 3k∼n1/3k\sim n^{1/3} où est la taille de l'échantillon.nnn Cependant, si vous regardez la nclass.FDfonction dans R, qui implémente cette règle, au moins avec les données gaussiennes …

8 histogram rule-of-thumb

1

Règles simples de base pour les statistiques

Dans une expérience binomiale, si nous observons individu positif parmi individus, alors la proportion d'individus positifs est significativement inférieure à avec une erreur de type 1 inférieure et très proche de . Ce fait, parfois appelé "règle des trois", est une conséquence des inégalitésx=0x=0x=0nnn3/n3/n3/n5%5%5\%exp(−np1−p)≤Pr(X=0)≤exp(−np).exp⁡(−np1−p)≤Pr(X=0)≤exp⁡(−np).\exp\left(-\frac{np}{1-p}\right) \leq \Pr(X=0) \leq \exp(-np). Connaissez-vous d'autres …

8 rule-of-thumb

Questions marquées «rule-of-thumb»