Statistiques et Big Data

3

Lorsque vous combinez des valeurs p, pourquoi ne pas simplement calculer la moyenne?

J'ai récemment appris la méthode de Fisher pour combiner les valeurs p. Ceci est basé sur le fait que p-value sous le null suit une distribution uniforme, et que qui, à mon avis, est un génie. Mais ma question est pourquoi aller de cette manière alambiquée? et pourquoi pas (qu'est-ce …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

7

Pourquoi quelqu'un utiliserait-il une approche bayésienne avec un précédent non approprié «non informatif» au lieu de l'approche classique?

Si l’intérêt consiste simplement à estimer les paramètres d’un modèle (estimation ponctuelle et / ou par intervalle) et que les informations préalables ne sont pas fiables, faibles (je sais que cela est un peu vague, mais j’essaie d’établir un scénario où a priori est difficile) ... Pourquoi quelqu'un choisirait-il d'utiliser …

44 bayesian inference prior likelihood information

1

Calcul de la variance Kappa de Cohen (et erreurs standard)

La statistique Kappa ( κκ\kappa ) a été introduite en 1960 par Cohen [1] pour mesurer l’accord entre deux évaluateurs. Cependant, sa variance était une source de contradictions depuis un certain temps. Ma question est de savoir quel est le meilleur calcul de variance à utiliser avec de grands échantillons. …

44 estimation variance reliability cohens-kappa

4

Aide-mémoire des modèles statistiques

Je me demandais s'il existe un modèle statistique "aide-mémoire" qui répertorie des informations supplémentaires: quand utiliser le modèle quand ne pas utiliser le modèle entrées obligatoires et optionnelles résultats attendus Le modèle a-t-il été testé dans différents domaines (politique, bio, ingénierie, fabrication, etc.)? est-ce accepté en pratique ou en recherche? …

44 references modeling

8

Définition rigoureuse d'une valeur aberrante?

Les gens parlent souvent de faire face aux valeurs aberrantes dans les statistiques. Ce qui me dérange à ce propos, c’est que, pour autant que je sache, la définition d’une valeur aberrante est complètement subjective. Par exemple, si la distribution réelle d'une variable aléatoire est très lourde ou bimodale, toute …

44 outliers definition

5

Pourquoi la comparaison multiple est-elle un problème?

J'ai du mal à comprendre quel est vraiment le problème des comparaisons multiples . Avec une simple analogie, on dit qu'une personne qui prendra de nombreuses décisions commettra de nombreuses erreurs. On applique donc une précaution très prudente, comme la correction de Bonferroni, de manière à rendre probable que cette …

44 hypothesis-testing multiple-comparisons

6

Pourquoi la multicolinéarité n'est-elle pas vérifiée dans les statistiques modernes / l'apprentissage automatique?

Dans les statistiques traditionnelles, lors de la construction d'un modèle, nous vérifions la multicolinéarité à l'aide de méthodes telles que les estimations du facteur d'inflation de la variance (VIF), mais en apprentissage automatique, nous utilisons plutôt la régularisation pour la sélection des caractéristiques et ne semblons pas vérifier si les …

44 regression machine-learning multicollinearity regularization vif

4

Existe-t-il un test permettant de déterminer si la surdispersion de GLM est significative?

Je crée des GLM de Poisson dans R. Pour vérifier la surdispersion, je regarde le rapport entre la déviance résiduelle et les degrés de liberté fournis par summary(model.name). Existe-t-il une valeur seuil ou un test pour que ce rapport soit considéré comme "significatif"? Je sais que si c'est> 1, les …

44 statistical-significance overdispersion

2

Une normalisation moyenne et une mise à l'échelle des fonctionnalités sont-elles nécessaires pour la classification en k-means?

Quelles sont les meilleures étapes (recommandées) de prétraitement avant d’utiliser k-means?

44 clustering normalization k-means

4

Comment comparer statistiquement deux séries chronologiques?

J'ai deux séries chronologiques, montrées dans l'intrigue ci-dessous: Le graphique montre les détails complets des deux séries chronologiques, mais je peux facilement le réduire aux observations coïncidentes si nécessaire. Ma question est la suivante: quelles méthodes statistiques puis-je utiliser pour évaluer les différences entre les séries chronologiques? Je sais que …

44 r time-series

6

Comment éviter les étiquettes qui se chevauchent dans un tracé R? [fermé]

J'essaie d'étiqueter un diagramme de dispersion assez simple en R. C'est ce que j'utilise: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Le résultat est médiocre, comme vous pouvez le constater (cliquez pour agrandir): J'ai essayé de compenser cela en utilisant la textxyfonction, mais ce n'est pas mieux . Rendre l'image …

44 r data-visualization scatterplot

4

Quelle fonction d'activation pour la couche de sortie?

Alors que le choix des fonctions d'activation pour la couche cachée est assez clair (principalement sigmoïde ou tanh), je me demande comment décider de la fonction d'activation pour la couche en sortie. Les choix courants sont les fonctions linéaires, les fonctions sigmoïdes et les fonctions softmax. Cependant, quand devrais-je utiliser …

44 neural-networks

3

Tester l'égalité des coefficients de deux régressions différentes

Cela semble être un problème fondamental, mais je viens de me rendre compte que je ne sais pas comment tester l’égalité des coefficients de deux régressions différentes. Quelqu'un peut-il nous éclairer? Plus formellement, supposons que j’ai exécuté les deux régressions suivantes: et où fait référence à la matrice de de …

44 hypothesis-testing inference

5

Est-il important de mettre à l'échelle les données avant la mise en cluster?

J'ai trouvé ce tutoriel , qui suggère que vous devriez exécuter la fonction scale sur les fonctionnalités avant la mise en cluster (je crois qu'il convertit les données en z-scores). Je me demande si cela est nécessaire. Je demande surtout parce qu'il y a un beau coude quand je n'échelle …

44 clustering k-means

4

Erreur type pour la moyenne d'un échantillon de variables aléatoires binomiales

Supposons que je lance une expérience qui peut avoir 2 résultats et que je suppose que la "vraie" distribution sous-jacente des 2 résultats est une distribution binomiale avec les paramètres et : .nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Je peux calculer l'erreur standard partir de la forme de la variance de : où …

44 binomial standard-error