Statistiques et Big Data modeling

2

Modélisation de quilleurs de cricket pour sortir les batteurs

J'ai un ensemble de données détaillant un grand nombre de jeux de cricket (quelques milliers). Dans le cricket, les "quilleurs" lancent à plusieurs reprises une balle sur une succession de "batteurs". Le lanceur essaie de faire sortir le batteur. À cet égard, il est assez similaire aux lanceurs et frappeurs …

9 probability modeling games

5

Quelle est la bonne façon de représenter graphiquement un très grand nombre de points de données appariés?

Dans mon domaine, la façon habituelle de tracer des données appariées consiste en une série de segments de ligne en pente mince, en les superposant à la médiane et à l'IC de la médiane pour les deux groupes: Cependant, ce type de tracé devient beaucoup plus difficile à lire car …

9 generalized-linear-model data-visualization modeling interpretation paired-data

2

Rétro-test ou validation croisée lorsque le processus de création de modèle était interactif

J'ai quelques modèles prédictifs dont je voudrais tester les performances (c.-à-d. Prendre mon jeu de données, le «rembobiner» à un point antérieur dans le temps et voir comment le modèle aurait fonctionné de manière prospective). Le problème est que certains de mes modèles ont été construits via un processus interactif. …

9 cross-validation modeling outliers splines overfitting

5

Régression logistique sur Big Data

J'ai un ensemble de données d'environ 5000 fonctionnalités. Pour ces données, j'ai d'abord utilisé le test du chi carré pour la sélection des fonctionnalités; après cela, j'ai obtenu environ 1500 variables qui ont montré une relation de signification avec la variable de réponse. Maintenant, je dois ajuster la régression logistique …

9 r logistic generalized-linear-model modeling regression-strategies

4

Modélisation pour les scores de football

Dans Dixon, Coles ( 1997 ), ils ont utilisé l'estimation du maximum de vraisemblance pour les deux modèles de Poisson indépendants modifiés en (4.3) pour modéliser les scores au soccer. J'essaie d'utiliser R afin de "reproduire" les paramètres alpha et bêta ainsi que les paramètres de l'effet home (p. 274, …

9 r modeling maximum-likelihood games

3

Quel modèle peut être utilisé lorsque l'hypothèse de variance constante est violée?

Puisque nous ne pouvons pas ajuster le modèle ARIMA lorsque l'hypothèse de variance constante est violée, quel modèle peut être utilisé pour ajuster les séries temporelles univariées?

9 time-series modeling forecasting arima

2

Comment modéliser la somme des variables aléatoires de Bernoulli pour les données dépendantes?

J'ai presque les mêmes questions comme celle-ci: comment puis-je modéliser efficacement la somme des variables aléatoires de Bernoulli? Mais le cadre est assez différent: P ( X i = 1 ) = p i N p iS=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i Nous avons les données pour les résultats …

9 distributions modeling binomial random-variable non-independent

1

Dois-je réorganiser mes données?

Nous avons un ensemble d'échantillons biologiques qui était assez cher à obtenir. Nous avons soumis ces échantillons à une série de tests pour générer des données qui sont utilisées pour construire un modèle prédictif. À cette fin, nous avons divisé les échantillons en ensembles d'apprentissage (70%) et d'essai (30%). Nous …

9 classification modeling experiment-design cross-validation bootstrap

2

Calculer la courbe ROC pour les données

Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

10

Comment dessinez-vous des modèles d'équation structurelle / MPLUS?

Je recherche un outil logiciel (de préférence open source) pour dessiner efficacement et joliment des modèles d'équations / mélanges structurels. Après avoir examiné xfig et graphviz, je m'en tiens maintenant au package général de graphiques vectoriels inkscape car il semble le plus flexible. Je voudrais interroger la communauté stat.stackexchange: Comment …

9 data-visualization modeling sem software

2

Mesurer la qualité de l'ajustement dans un modèle qui combine deux distributions

J'ai des données avec un double pic que j'essaie de modéliser, et il y a suffisamment de chevauchement entre les pics que je ne peux pas les traiter indépendamment. Un histogramme des données pourrait ressembler à ceci: J'ai créé deux modèles pour cela: l'un utilise deux distributions de Poisson, et …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

3

Calcul du meilleur sous-ensemble de prédicteurs pour la régression linéaire

Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas …

9 modeling regression multivariable model-selection feature-selection

4

Calcul du rapport des échantillons de données utilisés pour l'ajustement / la formation et la validation du modèle

A fourni une taille d'échantillon "N" que je prévois d'utiliser pour prévoir les données. Quelles sont certaines des façons de subdiviser les données afin que j'en utilise une partie pour établir un modèle et les autres données pour valider le modèle? Je sais qu'il n'y a pas de réponse en …

9 machine-learning modeling sample validation

4

La régression basée sur un arbre peut-elle être pire que la régression linéaire ordinaire?

Salut, j'étudie les techniques de régression. Mes données ont 15 fonctionnalités et 60 millions d'exemples (tâche de régression). Lorsque j'ai essayé de nombreuses techniques de régression connues (arbre boosté par gradient, régression d'arbre de décision, AdaBoostRegressor, etc.), la régression linéaire s'est très bien déroulée. Meilleur score parmi ces algorithmes. Quelle …

9 regression modeling deep-learning model cart

4

Comment les données sont-elles générées dans le cadre bayésien et quelle est la nature du paramètre qui génère les données?

J'essayais de réapprendre les statistiques bayésiennes (à chaque fois que je pensais l'avoir enfin, quelque chose d'autre apparaissait que je n'avais pas envisagé plus tôt ...) mais il n'était pas clair (pour moi) quel était le processus de génération de données dans le cadre bayésien est en fait. Le cadre …

9 bayesian modeling prior frequentist randomness

Questions marquées «modeling»