Statistiques et Big Data modeling

2

Quelles sont les pratiques standard pour créer des ensembles de données synthétiques?

Comme contexte: lorsque je travaille avec un ensemble de données très volumineux, on me demande parfois si nous pouvons créer un ensemble de données synthétiques où nous «connaissons» la relation entre les prédicteurs et la variable de réponse, ou les relations entre les prédicteurs. Au fil des ans, je semble …

26 modeling reproducible-research synthetic-data

5

Comment la régression linéaire utilise-t-elle la distribution normale?

Dans la régression linéaire, chaque valeur prédite est supposée avoir été choisie dans une distribution normale de valeurs possibles. Voir ci-dessous. Mais pourquoi chaque valeur prédite est-elle supposée provenir d'une distribution normale? Comment la régression linéaire utilise-t-elle cette hypothèse? Que faire si les valeurs possibles ne sont pas normalement distribuées?

26 regression probability distributions normal-distribution modeling

2

Modèle linéaire général vs modèle linéaire généralisé (avec une fonction de lien d'identité?)

Ceci est mon premier message, alors s'il vous plaît, ne vous gênez pas si je ne respecte pas certaines normes! J'ai fait une recherche pour ma question et rien n'est venu. Ma question concerne principalement les différences pratiques entre la modélisation linéaire générale (GLM) et la modélisation linéaire généralisée (GZLM). …

25 modeling linear-model

4

Avez-vous une vision globale de ces techniques d'analyse?

Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je …

24 modeling model-selection

6

Introduction à la modélisation d'équations structurelles

Des collègues me demandent de l'aide à ce sujet, que je ne connais pas vraiment. Ils ont fait des hypothèses sur le rôle de certaines variables latentes dans une étude, et un arbitre leur a demandé de formaliser cela en SEM. Comme ce dont ils ont besoin ne semble pas …

24 references modeling sem psychometrics

10

Avez-vous des recommandations pour des livres pour l'auto-apprentissage des statistiques appliquées au niveau supérieur?

J'ai suivi plusieurs cours de statistiques au collège mais j'ai trouvé que mes études étaient très axées sur la théorie. Je me demandais si certains d'entre vous avaient un texte en statistique appliquée (au niveau universitaire) que vous recommandez ou avec une bonne expérience.

23 regression references modeling experiment-design application

2

Modèles de statistiques spatiales: CAR vs SAR

Quand préférerait-on utiliser un modèle autorégressif conditionnel plutôt qu'un modèle autorégressif simultané lors de la modélisation de données aériennes géoréférencées autocorrélées?

23 modeling spatial

4

Distributions antérieures faiblement informatives pour les paramètres d'échelle

J'ai utilisé des distributions log normales comme distributions antérieures pour les paramètres d'échelle (pour les distributions normales, les distributions t, etc.) quand j'ai une idée approximative de ce que l'échelle devrait être, mais je veux me tromper en disant que je ne sais pas beaucoup à ce sujet. Je l'utilise …

21 distributions bayesian modeling prior maximum-entropy

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Comment combiner des intervalles de confiance pour une composante de variance d'un modèle à effets mixtes lors de l'utilisation de l'imputation multiple

La logique de l'imputation multiple (MI) consiste à imputer les valeurs manquantes non pas une fois mais plusieurs (généralement M = 5), ce qui donne M ensembles de données terminés. Les M ensembles de données complétés sont ensuite analysés avec des méthodes de données complètes sur lesquelles les estimations M …

20 modeling confidence-interval mixed-model data-imputation

2

Spécification d'un modèle de différence dans les différences avec plusieurs périodes

Lorsque j’estime un modèle de différence dans les différences avec deux périodes, le modèle de régression équivalent serait une. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} où est un mannequin qui est égal à 1 si l'observation provient du groupe de traitementTreatmentTreatmentTreatment et est un mannequin qui …

20 regression modeling econometrics panel-data difference-in-difference

2

Méthodologie de prévision VAR

Je construis un modèle VAR pour prévoir le prix d'un actif et je voudrais savoir si ma méthode est statistiquement solide, si les tests que j'ai inclus sont pertinents et si d'autres sont nécessaires pour assurer une prévision fiable basée sur mes variables d'entrée. Ci-dessous se trouve mon processus actuel …

19 r forecasting modeling var

2

Comment prédire quand le prochain événement se produit, en fonction des heures des événements précédents?

Je suis un lycéen et je travaille sur un projet de programmation informatique, mais je n'ai pas beaucoup d'expérience en statistique et en modélisation de données au-delà d'un cours de statistique au lycée donc je suis un peu confus. Fondamentalement, j'ai une liste raisonnablement longue (supposons qu'elle soit suffisamment grande …

19 probability modeling data-mining predictive-models

1

Quelle est la position de la communauté sur le quatrième quadrant?

Nassim Taleb, de renommée Black Swan (ou infamie), a développé le concept et développé ce qu'il appelle "une carte des limites de la statistique" . Son argument de base est qu'il existe un type de problème de décision où l'utilisation de n'importe quel modèle statistique est nuisible. Il s'agirait de …

19 distributions modeling random-variable

4

Puis-je simplement supprimer l'une des deux variables prédictives qui sont fortement corrélées linéairement?

En utilisant le coefficient de corrélation de Pearson, j'ai plusieurs variables qui sont hautement corrélées ( et pour 2 paires de variables qui sont dans mon modèle).ρ = 0,978ρ=0,978\rho = 0.978ρ = 0,989ρ=0,989\rho = 0.989 La raison pour laquelle certaines variables sont fortement corrélées est qu’une variable est utilisée dans …

18 regression correlation modeling

Questions marquées «modeling»