Statistiques et Big Data curve-fitting

3

Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

Les données ont deux tendances; Comment extraire des courbes de tendance indépendantes?

J'ai un ensemble de données qui n'est pas ordonné de manière particulière, mais qui présente clairement deux tendances distinctes. Une régression linéaire simple ne conviendrait pas vraiment ici à cause de la distinction claire entre les deux séries. Existe-t-il un moyen simple d’obtenir les deux courbes de tendance linéaires indépendantes? …

34 time-series python curve-fitting

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Interprétation de la différence entre la distribution lognormale et la loi de puissance (distribution des degrés de réseau)

Tout d'abord, je ne suis pas statisticien. Cependant, j'ai fait une analyse statistique du réseau pour mon doctorat. Dans le cadre de l'analyse du réseau, j'ai tracé une fonction de distribution cumulative complémentaire (CCDF) des degrés de réseau. Ce que j'ai trouvé, c'est que, contrairement aux distributions de réseau conventionnelles …

22 curve-fitting networks lognormal power-law

1

Ensembles de données de type Anscombe avec le même tracé de boîte et de moustaches (moyenne / std / médiane / MAD / min / max)

EDIT: Comme cette question a été gonflée, un résumé: trouver différents ensembles de données significatifs et interprétables avec les mêmes statistiques mixtes (moyenne, médiane, milieu de gamme et leurs dispersions associées, et régression). Le quatuor Anscombe (voir Objectif de visualiser des données de grande dimension? ) Est un exemple célèbre …

21 regression descriptive-statistics curve-fitting estimators

5

Une nouvelle façon révolutionnaire d'exploration de données?

L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff: À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?": Beaucoup de gens pensent qu'ils vont bien parce …

21 data-mining curve-fitting out-of-sample

4

Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon vecteur par la matrice de rotation PCA. Les …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Quel est le moyen le plus simple d'adapter les courbes de croissance logistique dans R?

Ce n'est pas aussi facile pour Google que d'autres choses car, pour être clair, je ne parle pas de régression logistique dans le sens d'utiliser la régression pour prédire des variables catégorielles. Je parle d'adapter une courbe de croissance logistique à des points de données donnés. Pour être précis, est …

19 r nonlinear-regression curve-fitting logistic-curve

4

Déterminer la meilleure fonction d'ajustement de courbe d'ajustement à partir de fonctions linéaires, exponentielles et logarithmiques

Le contexte: À partir d'une question sur Mathematics Stack Exchange (Puis-je créer un programme) , quelqu'un a un ensemble de points et veut y adapter une courbe, linéaire, exponentielle ou logarithmique. La méthode habituelle consiste à commencer par choisir l'un d'entre eux (qui spécifie le modèle), puis à effectuer les …

18 regression predictive-models model-selection curve-fitting

2

Différence entre l'analyse de régression et l'ajustement de courbe

Quelqu'un peut-il m'expliquer la ou les réelles différences entre l'analyse de régression et l'ajustement de courbe (linéaire et non linéaire), avec un exemple si possible? Il semble que les deux tentent de trouver une relation entre deux variables (dépendantes ou indépendantes) puis déterminent le paramètre (ou coefficient) associé aux modèles …

17 regression multiple-regression fitting roc curve-fitting

3

Que signifie le R au carré négatif?

Disons que j'ai des données, puis j'ajuste les données avec un modèle (une régression non linéaire). Ensuite, je calcule le R au carré ( ).R2R2R^2 Lorsque le R au carré est négatif, qu'est-ce que cela signifie? Est-ce à dire que mon modèle est mauvais? Je sais que la plage de …

17 regression goodness-of-fit r-squared curve-fitting

7

Quel type de courbe (ou modèle) dois-je adapter à mes données de pourcentage?

J'essaie de créer une figure qui montre la relation entre les copies virales et la couverture du génome (GCC). Voici à quoi ressemblent mes données: Au début, je viens de tracer une régression linéaire mais mes superviseurs m'ont dit que c'était incorrect et d'essayer une courbe sigmoïdale. J'ai donc fait …

15 regression modeling curve-fitting percentage

1

Comment interpréter la matrice de covariance à partir d'un ajustement de courbe?

Je ne suis pas trop doué en statistiques, donc je m'excuse s'il s'agit d'une question simpliste. J'ajuste une courbe à certaines données, et parfois mes données correspondent le mieux à une exponentielle négative sous la forme , et parfois l'ajustement est plus proche de a ∗ e ( - b …

15 variance model-selection python curve-fitting covariance-matrix

3

Comment puis-je détecter par programmation des segments d'une série de données pour les adapter à différentes courbes?

Existe-t-il des algorithmes documentés pour séparer les sections d'un ensemble de données donné en différentes courbes de meilleur ajustement? Par exemple, la plupart des humains qui regardent ce tableau de données le diviseraient facilement en 3 parties: un segment sinusoïdal, un segment linéaire et le segment exponentiel inverse. En fait, …

14 fitting curve-fitting segmentation

5

Comment adapter une distribution Weibull pour saisir des données contenant des zéros?

J'essaie de reproduire un algorithme de prédiction existant, transmis par un chercheur à la retraite. La première étape consiste à ajuster certaines données observées à une distribution de Weibull, pour obtenir une forme et une échelle qui seront utilisées pour prédire les valeurs futures. J'utilise R pour ce faire. Voici …

14 distributions curve-fitting

Questions marquées «curve-fitting»