Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
J'ai récemment appris la méthode de Fisher pour combiner les valeurs p. Ceci est basé sur le fait que p-value sous le null suit une distribution uniforme, et que qui, à mon avis, est un génie. Mais ma question est pourquoi aller de cette manière alambiquée? et pourquoi pas (qu'est-ce …
Si l’intérêt consiste simplement à estimer les paramètres d’un modèle (estimation ponctuelle et / ou par intervalle) et que les informations préalables ne sont pas fiables, faibles (je sais que cela est un peu vague, mais j’essaie d’établir un scénario où a priori est difficile) ... Pourquoi quelqu'un choisirait-il d'utiliser …
La statistique Kappa ( κκ\kappa ) a été introduite en 1960 par Cohen [1] pour mesurer l’accord entre deux évaluateurs. Cependant, sa variance était une source de contradictions depuis un certain temps. Ma question est de savoir quel est le meilleur calcul de variance à utiliser avec de grands échantillons. …
Je me demandais s'il existe un modèle statistique "aide-mémoire" qui répertorie des informations supplémentaires: quand utiliser le modèle quand ne pas utiliser le modèle entrées obligatoires et optionnelles résultats attendus Le modèle a-t-il été testé dans différents domaines (politique, bio, ingénierie, fabrication, etc.)? est-ce accepté en pratique ou en recherche? …
Les gens parlent souvent de faire face aux valeurs aberrantes dans les statistiques. Ce qui me dérange à ce propos, c’est que, pour autant que je sache, la définition d’une valeur aberrante est complètement subjective. Par exemple, si la distribution réelle d'une variable aléatoire est très lourde ou bimodale, toute …
J'ai du mal à comprendre quel est vraiment le problème des comparaisons multiples . Avec une simple analogie, on dit qu'une personne qui prendra de nombreuses décisions commettra de nombreuses erreurs. On applique donc une précaution très prudente, comme la correction de Bonferroni, de manière à rendre probable que cette …
Dans les statistiques traditionnelles, lors de la construction d'un modèle, nous vérifions la multicolinéarité à l'aide de méthodes telles que les estimations du facteur d'inflation de la variance (VIF), mais en apprentissage automatique, nous utilisons plutôt la régularisation pour la sélection des caractéristiques et ne semblons pas vérifier si les …
Je crée des GLM de Poisson dans R. Pour vérifier la surdispersion, je regarde le rapport entre la déviance résiduelle et les degrés de liberté fournis par summary(model.name). Existe-t-il une valeur seuil ou un test pour que ce rapport soit considéré comme "significatif"? Je sais que si c'est> 1, les …
J'ai deux séries chronologiques, montrées dans l'intrigue ci-dessous: Le graphique montre les détails complets des deux séries chronologiques, mais je peux facilement le réduire aux observations coïncidentes si nécessaire. Ma question est la suivante: quelles méthodes statistiques puis-je utiliser pour évaluer les différences entre les séries chronologiques? Je sais que …
J'essaie d'étiqueter un diagramme de dispersion assez simple en R. C'est ce que j'utilise: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Le résultat est médiocre, comme vous pouvez le constater (cliquez pour agrandir): J'ai essayé de compenser cela en utilisant la textxyfonction, mais ce n'est pas mieux . Rendre l'image …
Alors que le choix des fonctions d'activation pour la couche cachée est assez clair (principalement sigmoïde ou tanh), je me demande comment décider de la fonction d'activation pour la couche en sortie. Les choix courants sont les fonctions linéaires, les fonctions sigmoïdes et les fonctions softmax. Cependant, quand devrais-je utiliser …
Cela semble être un problème fondamental, mais je viens de me rendre compte que je ne sais pas comment tester l’égalité des coefficients de deux régressions différentes. Quelqu'un peut-il nous éclairer? Plus formellement, supposons que j’ai exécuté les deux régressions suivantes: et où fait référence à la matrice de de …
J'ai trouvé ce tutoriel , qui suggère que vous devriez exécuter la fonction scale sur les fonctionnalités avant la mise en cluster (je crois qu'il convertit les données en z-scores). Je me demande si cela est nécessaire. Je demande surtout parce qu'il y a un beau coude quand je n'échelle …
Supposons que je lance une expérience qui peut avoir 2 résultats et que je suppose que la "vraie" distribution sous-jacente des 2 résultats est une distribution binomiale avec les paramètres et : .nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Je peux calculer l'erreur standard partir de la forme de la variance de : où …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.