J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et …
Je suis intéressé à trouver une méthode optimale pour déterminer le nombre de casiers à utiliser dans un histogramme. Mes données devraient aller de 30 à 350 objets au maximum, et en particulier j'essaie d'appliquer un seuillage (comme la méthode d'Otsu) où les "bons" objets, pour lesquels je devrais avoir …
Dans le cadre d'une proposition de recherche en sciences sociales, on m'a posé la question suivante: J'ai toujours choisi 100 + m (m étant le nombre de prédicteurs) lors de la détermination de la taille minimale de l'échantillon pour la régression multiple. Est-ce approprié? Je reçois beaucoup de questions similaires, …
J'ai lu / entendu à plusieurs reprises que la taille d'échantillon d'au moins 30 unités est considérée comme un "échantillon large" (les hypothèses de normalité des moyennes sont généralement à peu près valables en raison du CLT, ...). Par conséquent, dans mes expériences, je génère généralement des échantillons de 30 …
Le contexte: Au fil du temps, j'ai acquis un ensemble d'heuristiques sur la façon de tracer efficacement l'association entre deux variables numériques. J'imagine que la plupart des gens qui travaillent avec des données auraient un ensemble de règles similaire. Des exemples de telles règles peuvent être: Si l'une des variables …
Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …
Quelqu'un utilise-t-il les métriques L1L1L_1 ou L.5L.5L_.5 pour le clustering, plutôt que L2L2L_2 ? Aggarwal et al., A propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que L1L1L_1 est toujours plus préférable que la métrique de distance euclidienne L2L2L_2 pour …
Le graphique en boîte et moustache et le graphique à barres sont des graphiques appropriés pour l'ANOVA selon The R Book (Crawley, 2013), mais lequel est le plus approprié ? Je suppose que cela dépend de la situation ... quelqu'un peut-il m'aider?
Je suis concepteur de logiciels de métier et je travaille sur un projet pour un client, et je voudrais m'assurer que mon analyse est statistiquement solide. Considérez ce qui suit: Nous avons n publicités (n <10), et nous voulons simplement savoir quelle publicité est la plus performante. Notre serveur publicitaire …
Les variables dépendantes dans une MANOVA ne doivent pas être "trop fortement corrélées". Mais à quel point une corrélation est-elle trop forte? Il serait intéressant de recueillir l'opinion des gens sur cette question. Par exemple, feriez-vous avec MANOVA dans les situations suivantes? Y1 et Y2 sont corrélés avec etp < …
Existe-t-il une règle empirique entre la profondeur d'un réseau neuronal et le taux d'apprentissage? J'ai remarqué que plus le réseau est profond, plus le taux d'apprentissage doit être faible. Si c'est exact, pourquoi?
Cette question décrit la différence fondamentale entre un histogramme uniforme et non uniforme. Et cette question traite de la règle de base pour choisir le nombre de cases d'un histogramme uniforme qui optimise (dans un certain sens) le degré auquel l'histogramme représente la distribution à partir de laquelle les échantillons …
Bien que j'aime à penser que j'ai une bonne compréhension du concept de l'information préalable dans l'analyse statistique et la prise de décision bayésienne, j'ai souvent du mal à comprendre ma demande. Je pense à quelques situations qui illustrent mes luttes et je pense qu'elles ne sont pas correctement traitées …
Wikipédia signale que selon la règle de Freedman et Diaconis, le nombre optimal de casiers dans un histogramme, devrait croître commekkk k ∼n1 / 3k∼n1/3k\sim n^{1/3} où est la taille de l'échantillon.nnn Cependant, si vous regardez la nclass.FDfonction dans R, qui implémente cette règle, au moins avec les données gaussiennes …
Dans une expérience binomiale, si nous observons individu positif parmi individus, alors la proportion d'individus positifs est significativement inférieure à avec une erreur de type 1 inférieure et très proche de . Ce fait, parfois appelé "règle des trois", est une conséquence des inégalitésx=0x=0x=0nnn3/n3/n3/n5%5%5\%exp(−np1−p)≤Pr(X=0)≤exp(−np).exp(−np1−p)≤Pr(X=0)≤exp(−np).\exp\left(-\frac{np}{1-p}\right) \leq \Pr(X=0) \leq \exp(-np). Connaissez-vous d'autres …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.