Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données

Quelle est la justification théorique pour les procédures bayésiennes d'intervalle crédible?

(Pour voir pourquoi j'ai écrit ceci, consultez les commentaires ci-dessous ma réponse à cette question .) Erreurs de type III et théorie de la décision statistique Donner la bonne réponse à la mauvaise question est parfois appelé une erreur de type III. La théorie de la décision statistique est une …

20 bayesian credible-interval decision-theory

Existe-t-il un estimateur non biaisé de la distance de Hellinger entre deux distributions?

Dans un contexte où l'on observe distribués à partir d'une distribution de densité , je me demande s'il existe un estimateur non biaisé (basé sur les ) de la distance de Hellinger à une autre distribution de densité , à savoir f X i f 0 H ( f , …

20 pdf unbiased-estimator distance-functions functional-data-analysis hellinger

Lien entre la variance et les distances par paires au sein d'une variable

Veuillez prouver que si nous avons deux variables (taille d'échantillon égale) et et que la variance dans est plus grande que dans , alors la somme des différences au carré (c'est-à-dire les distances euclidiennes au carré) entre les points de données dans est également supérieure à que , dans .YXXXOuiOuiYYXXXOuiOuiYYXXXOuiOuiY

20 variance distance

Combiner des modèles d'apprentissage automatique

Je suis un peu nouveau dans le datamining / machine learning / etc. et j'ai lu quelques façons de combiner plusieurs modèles et exécutions du même modèle pour améliorer les prévisions. Mon impression de la lecture de quelques articles (qui sont souvent intéressants et excellents sur la théorie et les …

20 r random-forest k-nearest-neighbour ensemble

Intervalle de confiance autour du rapport de deux proportions

J'ai deux proportions (par exemple, le taux de clics (CTR) sur un lien dans une disposition de contrôle et le CTR sur un lien dans une disposition expérimentale), et je veux calculer un intervalle de confiance de 95% autour du rapport de ces proportions. Comment puis-je faire cela? Je sais …

20 confidence-interval

Quel sens cela fait-il de comparer les valeurs de p les unes aux autres?

J'ai deux populations (hommes et femmes), chacune contenant échantillons. Pour chaque échantillon, j'ai deux propriétés A et B (moyenne pondérée cumulative de la première année et score SAT). J'ai utilisé un test t séparément pour A & B: les deux ont trouvé des différences significatives entre les deux groupes; A …

20 statistical-significance t-test p-value effect-size

Méthodes de rééchantillonnage du caret

J'utilise la bibliothèque careten R pour tester différentes procédures de modélisation. L' trainControlobjet permet de spécifier une méthode de rééchantillonnage. Les méthodes sont décrites dans la documentation section 2.3 et comprennent: boot, boot632, cv, LOOCV, LGOCV, repeatedcvet oob. Bien que certaines d'entre elles soient faciles à déduire, toutes ces méthodes …

20 r resampling caret

Qu'est-ce qu'un bloc dans la conception expérimentale?

J'ai deux questions sur la notion de bloc dans la conception expérimentale: (1) Quelle est la différence entre un bloc et un facteur? (2) J'ai essayé de lire quelques livres mais quelque chose n'est pas clair: il semble que les auteurs supposent toujours qu'il n'y a pas d'interaction entre le …

20 experiment-design interaction interpretation

Résumé des résultats «Grand p, Petit n»

Quelqu'un peut-il m'indiquer un document d'enquête sur les résultats "Grand , Petit n "? Je suis intéressé par la façon dont ce problème se manifeste dans différents contextes de recherche, par exemple la régression, la classification, le test de Hotelling, etc .pppnnn

20 regression classification multivariate-analysis

Quand supprimer un terme d'un modèle de régression?

Quelqu'un pourrait-il indiquer si ce qui suit est logique: J'ai affaire à un modèle linéaire ordinaire avec 4 prédicteurs. Je suis dans deux esprits s'il faut abandonner le terme le moins significatif. Sa valeur est un peu plus de 0,05. J'ai plaidé en faveur de l'abandon dans ces conditions: multiplier …

20 regression model-selection

Des idées pour le logiciel «cahier de laboratoire»?

C'est donc un ajustement étrange, bien que je pense vraiment que c'est un ajustement étrange pour n'importe quel site, alors j'ai pensé l'essayer ici, parmi mes frères qui croient les données. Je suis arrivé à l'épidémiologie et à la biostatistique de la biologie, et j'ai certainement encore des habitudes dans …

20 references software eda

Existe-t-il un test statistique paramétrique et non paramétrique?

Existe-t-il un test statistique paramétrique et non paramétrique? Cette question a été posée par un panel d'entrevues. Est-ce une question valable?

20 nonparametric terminology parametric

Test de signification ou validation croisée?

Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?

20 cross-validation feature-selection

Comparaisons autorisées des modèles à effets mixtes (effets aléatoires principalement)

J'ai étudié la modélisation d'effets mixtes à l'aide du package lme4 dans R. J'utilise principalement la lmercommande, je vais donc poser ma question via du code qui utilise cette syntaxe. Je suppose qu'une question générale facile pourrait être, est-il OK de comparer deux modèles construits en lmerutilisant des ratios de …

20 r mixed-model lme4-nlme likelihood-ratio

Quelle est la différence entre la régression binomiale et la régression logistique?

J'ai toujours pensé que la régression logistique était simplement un cas spécial de régression binomiale où la fonction de lien est la fonction logistique (au lieu, disons, d'une fonction probit). En lisant les réponses à une autre question que j'avais, cependant, il semble que je puisse être confus, et il …

20 regression logistic binomial

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.

Licensed under cc by-sa 3.0 with attribution required.