Statistiques et Big Data

2

Comment mettre en commun les moyennes postérieures et les intervalles crédibles après imputation multiple?

J'ai utilisé l'imputation multiple pour obtenir un certain nombre de jeux de données terminés. J'ai utilisé des méthodes bayésiennes sur chacun des ensembles de données terminés pour obtenir des distributions postérieures pour un paramètre (un effet aléatoire). Comment puis-je combiner / regrouper les résultats de ce paramètre? Plus de contexte: …

20 bayesian mixed-model missing-data

3

Comment interpréter les coefficients de régression lorsque la réponse a été transformée par la 4ème racine?

J'utilise la quatrième 1/4transformation de puissance root ( ) sur ma variable de réponse, en raison de l'hétéroscédasticité. Mais maintenant, je ne sais pas comment interpréter mes coefficients de régression. Je suppose que j'aurais besoin de prendre les coefficients à la quatrième puissance lors de la rétrotransformation (voir ci-dessous la …

20 regression data-transformation

3

Statistiques élémentaires pour les jurés

J'ai été convoqué pour un jury. Je suis conscient de la pertinence des statistiques pour certains procès devant jury. Par exemple, le concept de "taux de base" et son application aux calculs de probabilité est parfois - peut-être toujours - pertinent. Quels sujets statistiques une personne dans ma situation pourrait-elle …

20 probability bayesian references

3

Quels tests dois-je utiliser pour confirmer que les résidus sont normalement distribués?

J'ai quelques données qui semblent en traçant un graphique des résidus en fonction du temps presque normal mais je veux en être sûr. Comment puis-je tester la normalité des résidus d'erreur?

20 hypothesis-testing normal-distribution assumptions

5

Test t apparié versus non apparié

Supposons que j'ai 20 souris. J'appaire les souris d'une manière ou d'une autre, de sorte que j'obtienne 10 paires. Aux fins de cette question, il pourrait s'agir d'un appariement aléatoire, OU il pourrait s'agir d'un appariement sensé, comme essayer d'associer des souris de la même portée, du même sexe, avec …

20 t-test paired-data

6

«Entièrement bayésien» vs «Bayésien»

J'ai appris les statistiques bayésiennes et j'ai souvent lu des articles "nous adoptons une approche bayésienne" ou quelque chose de similaire. J'ai aussi remarqué, moins souvent: "nous adoptons une approche entièrement bayésienne" (c'est moi qui souligne). Y a-t-il une différence entre ces approches dans un sens pratique ou théorique? FWIW, …

20 bayesian

3

Je reçois des charges «nerveuses» dans Rollapply PCA dans R. Puis-je le corriger?

J'ai 10 ans de données de retours quotidiens pour 28 devises différentes. Je souhaite extraire le premier composant principal, mais plutôt que d'exploiter PCA sur l'ensemble des 10 ans, je souhaite recaler une fenêtre de 2 ans, car les comportements des devises évoluent et je souhaite donc en tenir compte. …

20 r pca

4

Gérer 0,1 valeur dans une régression bêta

J'ai quelques données en [0,1] que je voudrais analyser avec une régression bêta. Bien sûr, quelque chose doit être fait pour s'adapter aux valeurs 0,1. Je n'aime pas modifier les données pour les adapter à un modèle. Je ne pense pas non plus que l'inflation zéro et 1 soit une …

20 regression generalized-linear-model beta-distribution zero-inflation beta-regression

2

Simulation de séries temporelles en fonction de la puissance et des densités spectrales croisées

J'ai du mal à générer un ensemble de séries temporelles colorées stationnaires, étant donné leur matrice de covariance (leurs densités spectrales de puissance (PSD) et leurs densités spectrales de puissance croisée (CSD)). Je sais que, compte tenu de deux séries chronologiques yje( t )yje(t)y_{I}(t) et yJ( t )yJ(t)y_{J}(t) , je …

20 time-series sampling algorithms simulation covariance

1

Erreur dans l'approximation normale d'une distribution de somme uniforme

Une méthode naïve pour approximer une distribution normale consiste à additionner peut-être variables aléatoires IID uniformément réparties sur , puis plus récentes et redimensionnées, en s'appuyant sur le théorème de la limite centrale. ( Remarque : il existe des méthodes plus précises telles que la transformée de Box – Muller …

20 normal-distribution central-limit-theorem moments approximation

1

Calcul des intervalles de prédiction pour la régression logistique

J'aimerais comprendre comment générer des intervalles de prédiction pour les estimations de régression logistique. On m'a conseillé de suivre les procédures décrites dans Collett's Modeling Binary Data , 2nd Ed p.98-99. Après avoir implémenté cette procédure et l'avoir comparée aux R predict.glm, je pense en fait que ce livre montre …

20 r regression confidence-interval logistic prediction-interval

6

PCA de données non gaussiennes

J'ai quelques questions rapides sur PCA: L'ACP suppose- t-elle que l'ensemble de données est gaussien? Que se passe-t-il lorsque j'applique une PCA à des données intrinsèquement non linéaires? Étant donné un ensemble de données, le processus consiste d'abord à normaliser la moyenne, à définir la variance sur 1, à prendre …

20 pca svd

6

Modification de l'échelle d'une variable à 0-100

J'ai construit un indice de capital social en utilisant la technique PCA. Cet indice comprend des valeurs à la fois positives et négatives. Je veux transformer / convertir cet index en échelle 0-100 pour le rendre facile à interpréter. Veuillez me suggérer un moyen le plus simple de le faire.

20 data-transformation scales

2

Validation croisée vs Bayes empiriques pour estimer les hyperparamètres

Étant donné un modèle hiérarchique , je veux un processus en deux étapes pour s'adapter au modèle. Tout d'abord, corrigez une poignée d'hyperparamètres , puis faites l'inférence bayésienne sur le reste des paramètres . Pour fixer les hyperparamètres, j'envisage deux options.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi Utilisez …

20 cross-validation references empirical-bayes

2

AdaBoost est-il moins ou plus sujet au sur-ajustement?

J'ai lu diverses déclarations (apparemment) contradictoires, que AdaBoost (ou d'autres techniques de boosting) soient ou non sujettes à un sur-ajustement par rapport à d'autres méthodes d'apprentissage. Y a-t-il de bonnes raisons de croire l'un ou l'autre? Si cela dépend, de quoi dépend-il? Quelles sont les raisons pour lesquelles AdaBoost est …

20 machine-learning boosting