Statistiques et Big Data modeling

3

La formulation d'un modèle mathématique pour un problème est l'un des aspects les plus subjectifs de la statistique, mais aussi l'un des plus importants. Quelles sont les meilleures références traitant de ce sujet crucial mais souvent négligé? Et quel célèbre statisticien a dit quelque chose dans le sens de: "Que …

9 modeling references

2

Comment comparer des modèles sans ajustement?

La régression et l'apprentissage automatique sont utilisés en sciences naturelles pour tester des hypothèses, estimer des paramètres et faire des prédictions en ajustant des modèles aux données. Cependant, quand j'ai un modèle a priori , je ne veux faire aucun ajustement --- par exemple, un modèle d'un système physique déterministe …

8 modeling simulation goodness-of-fit model-comparison

2

Les poids et le décalage peuvent-ils conduire à des résultats similaires dans la régression du poisson?

Dans le "Guide du praticien des modèles linéaires généralisés" au paragraphe 1.83, il est indiqué que: "Dans le cas particulier d'un GLM multiplicatif de Poisson, il peut être démontré que la modélisation des comptes de sinistres avec un terme de décalage égal au log de l'exposition a produit des résultats …

8 generalized-linear-model modeling poisson-regression weights offset

3

Comment effectuer une SVD pour imputer des valeurs manquantes, un exemple concret

J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

L'indépendance statistique dans le monde réel

J'ai lu l'article suivant sur l'indépendance statistique . En résumé, l'article soutient que "Il est temps que la science retire la fiction de l'indépendance statistique" et poursuit en expliquant différentes raisons. Après avoir lu l'article, j'ai tendance à être d'accord. Je voulais savoir ce qui suit: Que pensent les autres …

8 modeling independence

1

Plusieurs modèles ARIMA correspondent bien aux données. Comment déterminer la commande? Approche correcte?

J'ai deux séries chronologiques (paramètres d'un modèle pour hommes et femmes) et vise à identifier un modèle ARIMA approprié afin de faire des prévisions. Ma série chronologique ressemble à: L'intrigue et l'ACF montrent non stationnaire (les pointes de l'ACF se coupent très lentement). Ainsi, j'utilise la différenciation et j'obtiens: Ce …

8 r time-series modeling arima autocorrelation

3

Trouvez la distribution et passez à la distribution normale

J'ai des données qui décrivent la fréquence à laquelle un événement se produit pendant une heure ("nombre par heure", nph) et la durée des événements ("durée en secondes par heure", dph). Ce sont les données d'origine: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

2

Une personne sélectionne à plusieurs reprises les deux éléments les plus similaires sur trois. Comment modéliser / estimer une distance perceptuelle entre les objets?

Une personne reçoit trois articles, par exemple des images de visages, et est invitée à choisir quels sont les deux visages les plus similaires. Cette opération est répétée un grand nombre de fois avec différentes combinaisons de visages, chaque visage pouvant apparaître dans de nombreuses combinaisons. Compte tenu de ce …

8 modeling dimensionality-reduction psychometrics similarities

1

Modèles d'état caché vs modèles sans état pour la régression des séries chronologiques

C'est une question assez générique: supposons que je veuille construire un modèle pour prédire la prochaine observation sur la base des observations précédentes ( peut être un paramètre à optimiser expérimentalement). Nous avons donc essentiellement une fenêtre coulissante d'entités d'entrée pour prédire la prochaine observation.NNNNNN Je peux utiliser une approche …

8 regression time-series modeling prediction hidden-markov-model

2

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Test post hoc dans une conception mixte 2x3 ANOVA utilisant SPSS?

J'ai deux groupes de 10 participants qui ont été évalués trois fois au cours d'une expérience. Pour tester les différences entre les groupes et entre les trois évaluations, j'ai exécuté une ANOVA de conception mixte 2x3 avec group(contrôle, expérimental), time(premier, deuxième, trois) et group x time. Les deux timeet grouprésulté …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Que disent les graphiques Lift and Gain dans le contexte d'un modèle de rotation du personnel

J'essaie donc de mieux comprendre les graphiques Lift and Gain tels qu'ils s'appliquent à mon modèle de rotation des employés (c'est-à-dire utilisé CHAID dans SPSS Modeler). Pour mes données, cela signifie prévoir le nombre de personnes qui quittent volontairement l'entreprise. J'ai examiné les références ci-dessous et j'ai les bases concernant …

8 modeling predictive-models

1

Modélisation du langage: pourquoi l'ajout de 1 est-il si important?

Dans de nombreuses applications de traitement du langage naturel telles que la correction d'orthographe, la traduction automatique et la reconnaissance vocale, nous utilisons des modèles de langage. Les modèles de langage sont généralement créés en comptant la fréquence à laquelle les séquences de mots (n-grammes) se produisent dans un grand …

8 distributions modeling natural-language language-models

4

Version flexible de la régression logistique

J'essaie d'adapter une régression logistique où il y a une énorme différence dans le nombre de points de données dans les deux groupes (70 Vs 10 000). Un de mes amis statisticien m'a dit que c'est un problème connu de régression logistique et que pour ces types de chiffres, il …

8 modeling logistic binary-data

1

Que signifie ce flou autour de la ligne dans ce graphique?

Je jouais avec ggplot2 en utilisant les commandes suivantes pour ajuster une ligne à mes données: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Les points rouges sont des valeurs médianes, le bleu est la …

8 r modeling dataset data-mining ggplot2

Questions marquées «modeling»