Statistiques et Big Data

1

Quelles parcelles diagnostiques existent pour la régression quantile?

Suite à ma question pour l'OLS , je me demande: quels graphiques de diagnostic existent pour la régression quantile? (et y en a-t-il une mise en œuvre?) Une recherche rapide sur Google a déjà abouti à l' intrigue du ver (dont je n'ai jamais entendu parler auparavant), et je serais …

25 r regression diagnostic quantile-regression gamlss

2

Comparer les splines de lissage et le loess pour le lissage?

Je souhaite mieux comprendre les avantages / inconvénients de l'utilisation de loess ou d'un spline de lissage pour lisser une courbe. Une autre variation de ma question est de savoir s'il existe un moyen de construire une spline de lissage d'une manière qui produira les mêmes résultats que l'utilisation du …

25 regression splines loess

4

Ziliak (2011) s'oppose à l'utilisation des valeurs de p et mentionne certaines alternatives; que sont-ils?

Dans un article récent sur les inconvénients de s'appuyer sur la valeur p pour l'inférence statistique, intitulé "Matrixx c. Siracusano et Student c. Fisher Statistical d'importance on trial" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak s'oppose à l'utilisation des valeurs de p. Dans les derniers paragraphes, il dit: Les données …

25 r hypothesis-testing statistical-significance bayesian p-value

5

Pourquoi utiliser la méthode Monte Carlo au lieu d'une simple grille?

lors de l'intégration d'une fonction ou dans des simulations complexes, j'ai vu que la méthode de Monte Carlo est largement utilisée. Je me demande pourquoi on ne génère pas une grille de points pour intégrer une fonction au lieu de dessiner des points aléatoires. Cela n'apporterait-il pas des résultats plus …

25 monte-carlo

7

Pourquoi le sexe est-il généralement codé 0/1 plutôt que 1/2, par exemple?

Je comprends la logique du codage pour l'analyse des données. Ma question ci-dessous concerne l'utilisation d'un code spécifique. Y a-t-il une raison pour laquelle le sexe est souvent codé 0 pour les femmes et 1 pour les hommes? Pourquoi ce codage est-il considéré comme «standard»? Comparez cela avec Femelle = …

25 data-transformation binary-data categorical-encoding units

2

Quelle est la différence entre le filtre de Kalman et la moyenne mobile?

Je calcule un filtre de Kalman très simple (marche aléatoire + modèle de bruit). Je trouve que la sortie du filtre est très similaire à une moyenne mobile. Y a-t-il une équivalence entre les deux? Sinon, quelle est la différence?

25 kalman-filter

6

Quelles sont les bonnes techniques de visualisation des données pour comparer les distributions?

J'écris ma thèse de doctorat et je me suis rendu compte que je m'appuie excessivement sur les boîtes à moustaches pour comparer les distributions. Quelles autres alternatives aimez-vous pour accomplir cette tâche? J'aimerais également vous demander si vous connaissez une autre ressource comme la galerie R dans laquelle je peux …

25 r distributions data-visualization boxplot relative-distribution

4

Aborder l'incertitude du modèle

Je me demandais comment les Bayésiens de la communauté CrossValidated perçoivent le problème de l' incertitude du modèle et comment ils préfèrent y faire face? Je vais essayer de poser ma question en deux parties: Dans quelle mesure (selon votre expérience / votre opinion) traite-t-on de l'incertitude du modèle? Je …

25 machine-learning bayesian model-selection

2

Quand ne dois-je * pas * utiliser la fonction nlm de R pour MLE?

J'ai parcouru quelques guides suggérant d'utiliser le nlm de R pour une estimation du maximum de vraisemblance. Mais aucun d'entre eux (y compris la documentation de R ) ne donne beaucoup de conseils théoriques sur le moment d'utiliser ou de ne pas utiliser la fonction. Autant que je sache, nlm …

25 r maximum-likelihood

2

L'ACP est-elle instable en multicolinéarité?

Je sais que dans une situation de régression, si vous avez un ensemble de variables hautement corrélées, cela est généralement "mauvais" en raison de l'instabilité des coefficients estimés (la variance va vers l'infini car le déterminant va vers zéro). Ma question est de savoir si cette «méchanceté» persiste dans une …

25 pca multicollinearity

1

Construire des intervalles de confiance basés sur la vraisemblance du profil

Dans mon cours de statistique élémentaire, j'ai appris à construire un intervalle de confiance à 95% tel que la moyenne de la population, , basé sur la normalité asymptotique pour les "grands" échantillons. Outre les méthodes de rééchantillonnage (comme le bootstrap), il existe une autre approche basée sur la «vraisemblance …

25 confidence-interval profile-likelihood

3

Qu'est-ce qu'un processus de bruit blanc?

Quelle est la meilleure façon de définir le processus de bruit blanc afin qu'il soit intuitif et facile à comprendre?

25 time-series

3

Cinq principaux classificateurs à essayer en premier

Outre les caractéristiques évidentes du classificateur comme coût de calcul, types de données attendus des fonctionnalités / étiquettes et l'adéquation à certaines tailles et dimensions d'ensembles de données, quels sont les cinq premiers classificateurs (ou 10, 20?) à essayer en premier sur un nouvel ensemble de données dont on ne …

25 machine-learning classification methodology

2

Modèle linéaire général vs modèle linéaire généralisé (avec une fonction de lien d'identité?)

Ceci est mon premier message, alors s'il vous plaît, ne vous gênez pas si je ne respecte pas certaines normes! J'ai fait une recherche pour ma question et rien n'est venu. Ma question concerne principalement les différences pratiques entre la modélisation linéaire générale (GLM) et la modélisation linéaire généralisée (GZLM). …

25 modeling linear-model

2

Test du rapport de vraisemblance dans R

Supposons que je vais faire une régression logistique univariée sur plusieurs variables indépendantes, comme ceci: mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) J'ai fait une comparaison de modèle (test de rapport de vraisemblance) pour voir si le modèle est meilleur que le modèle …

25 r logistic diagnostic