Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
(Excuses à l'avance pour l'utilisation du langage profane plutôt que du langage statistique.) Si je veux mesurer les chances de lancer chaque côté d'un dé physique à six faces spécifique à +/- 2% près avec une certitude raisonnable, combien de rouleaux d'échantillons seraient nécessaires? c'est-à-dire combien de fois aurais-je besoin …
La section 1.7.2 de Découvrir les statistiques à l'aide de R par Andy Fields, et tout, tout en énumérant les vertus de la moyenne par rapport à la médiane, indique: ... la moyenne a tendance à être stable dans différents échantillons. Ceci après avoir expliqué les nombreuses vertus de la …
Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme …
Nous lançons un dé à 6 faces un grand nombre de fois. En calculant la différence (valeur absolue) entre un rouleau et son rouleau précédent, les différences devraient-elles être uniformément réparties? Pour illustrer avec 10 rouleaux: roll num result diff 1 1 0 2 2 1 3 1 1 4 …
Je suis curieux de savoir comment les gradients sont propagés en retour à travers un réseau de neurones à l'aide de modules ResNet / sauter les connexions. J'ai vu quelques questions sur ResNet (par exemple, un réseau de neurones avec des connexions de couche de saut ), mais celui-ci pose …
Question: Quand (pour quels types de problèmes de visualisation des données) les cartes thermiques sont-elles les plus efficaces? (En particulier, plus efficace que toutes les autres techniques de visualisation possibles?) Quand les cartes thermiques sont-elles les moins efficaces? Existe-t-il des modèles ou des règles générales communs que l'on peut utiliser …
Ayant inclus un modèle de régression quantile dans un article, les examinateurs veulent que j'inclue ajusté dans l'article. J'ai calculé les pseudo- R 2 (d' après l'article JASA de Koenker et Machado en 1999 ) pour les trois quantiles d'intérêt pour mon étude.R2R2R^2R2R2R^2 Cependant, je n'ai jamais entendu parler d'un …
Je jouais avec un simple réseau neuronal avec une seule couche cachée, par Tensorflow, puis j'ai essayé différentes activations pour la couche cachée: Relu Sigmoïde Softmax (enfin, habituellement softmax est utilisé dans la dernière couche ..) Relu offre la meilleure précision de train et précision de validation. Je ne sais …
Je sais que pour les problèmes réguliers, si nous avons un meilleur estimateur régulier sans biais, ce doit être l'estimateur du maximum de vraisemblance (MLE). Mais en général, si nous avons un MLE sans biais, serait-ce aussi le meilleur estimateur sans biais (ou peut-être devrais-je l'appeler UMVUE, tant qu'il a …
Andrew Gelman a écrit un article détaillé sur les raisons pour lesquelles les tests bayésiens AB ne nécessitent pas de correction d'hypothèses multiples: pourquoi nous n'avons (habituellement) pas à nous inquiéter des comparaisons multiples , 2012. Je ne comprends pas très bien: pourquoi les méthodes bayésiennes ne nécessitent-elles pas plusieurs …
L'image ci-dessous montre une courbe continue des taux de faux positifs par rapport aux taux véritablement positifs: Cependant, ce que je ne comprends pas immédiatement, c'est comment ces taux sont calculés. Si une méthode est appliquée à un ensemble de données, elle a un certain taux de FP et un …
Lors de la formation d'un réseau neuronal à l'aide de l'algorithme de rétropropagation, la méthode de descente en gradient est utilisée pour déterminer les mises à jour du poids. Ma question est la suivante: Plutôt que d'utiliser la méthode de descente en gradient pour localiser lentement le point minimum par …
Selon Miller and Freund's Probability and Statistics for Engineers, 8ed (pp.217-218), la fonction de vraisemblance à maximiser pour la distribution binomiale (essais de Bernoulli) est donnée comme suit : L(p)=∏ni=1pxi(1−p)1−xiL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Comment arriver à cette équation? Cela me semble assez clair concernant les autres distributions, Poisson et Gaussienne; L(θ)=∏ni=1PDF …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.