Statistiques et Big Data

4

Les estimations de régression L1 sont médianes alors que les estimations de régression L2 signifient?

On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si …

24 lasso regularization loss-functions ridge-regression

1

Comment visualiser une énorme table de contingence clairsemée?

J'ai deux variables: le nom du médicament (DN) et les événements indésirables (AE) correspondants, qui se trouvent dans une relation plusieurs à plusieurs. Il y a 33 556 noms de médicaments et 9 516 événements indésirables. La taille de l'échantillon est d'environ 5,8 millions d'observations. Je veux étudier et comprendre …

24 r categorical-data data-visualization large-data association-measure

2

Dans quel ordre devez-vous effectuer des diagnostics de régression linéaire?

Dans l'analyse de régression linéaire, nous analysons les valeurs aberrantes, étudions la multicolinéarité, testons l'hétéroscédastictie. La question est: existe-t-il un ordre pour les appliquer? Je veux dire, devons-nous analyser les valeurs aberrantes tout d'abord, puis examiner la multicolinéarité? Ou inversé? Y a-t-il une règle d'or à ce sujet?

24 regression multiple-regression outliers

1

Comment définir la condition de terminaison de la descente en pente?

En fait, je voulais vous demander comment puis-je définir la condition de fin pour la descente en gradient. Puis-je l'arrêter en fonction du nombre d'itérations, c'est-à-dire en tenant compte des valeurs des paramètres pour, disons, 100 itérations? Ou dois-je attendre de telle sorte que les différentes valeurs des deux paramètres …

24 algorithms optimization gradient-descent

2

Comment inclure un terme d'interaction dans GAM?

Le code suivant évalue la similitude entre deux séries chronologiques: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) …

24 r time-series data-visualization gam

3

Corrélation entre deux séries chronologiques

Quelle est la méthode / méthode la plus simple pour calculer la corrélation entre deux séries chronologiques qui ont exactement la même taille? J'ai pensé multiplier et , et additionner la multiplication. Donc, si ce nombre unique était positif, peut-on dire que ces deux séries sont corrélées? Je peux penser …

24 time-series

4

Quelle est la différence entre les statistiques mathématiques et les statistiques?

Quelle est la différence entre les statistiques mathématiques et les statistiques? J'ai lu ceci : La statistique est l'étude de la collecte, de l'organisation, de l'analyse et de l'interprétation des données. Il en traite tous les aspects, y compris la planification de la collecte de données en termes de conception …

24 mathematical-statistics terminology

1

Qui a inventé la validation croisée k-fold?

Je cherche une référence à l'article où la validation croisée k-fold a été introduite (plutôt qu'une simple bonne référence académique pour le sujet). Il est peut-être trop loin dans la nuit des temps pour identifier sans ambiguïté le tout premier article, de sorte que tous les premiers articles où l'idée …

24 cross-validation references

3

Comment faire une régression logistique dans R lorsque le résultat est fractionné (un rapport de deux comptes)?

J'examine un article qui a l'expérience biologique suivante. Un dispositif est utilisé pour exposer les cellules à différentes quantités de contrainte de cisaillement fluide. À mesure qu'une plus grande contrainte de cisaillement est appliquée aux cellules, un plus grand nombre d'entre elles commencent à se détacher du substrat. À chaque …

24 r logistic multinomial

3

Les échantillons non aléatoires peuvent-ils être analysés à l'aide de tests statistiques standard?

De nombreuses études cliniques sont basées sur des échantillons non aléatoires. Cependant, la plupart des tests standard (par exemple tests t, ANOVA, régression linéaire, régression logistique) sont basés sur l'hypothèse que les échantillons contiennent des "nombres aléatoires". Les résultats sont-ils valables si ces échantillons non aléatoires ont été analysés par …

24 sampling randomness

4

Avez-vous une vision globale de ces techniques d'analyse?

Je suis actuellement sur un projet où j'ai essentiellement besoin, comme nous tous, de comprendre comment la sortie est liée à l'entrée . La particularité ici est que les données me sont données une pièce à la fois, donc je veux mettre à jour mon analyse chaque fois que je …

24 modeling model-selection

4

Quelle est la relation entre la régression et l'analyse discriminante linéaire (LDA)?

Existe-t-il une relation entre la régression et l'analyse discriminante linéaire (LDA)? Quelles sont leurs similitudes et leurs différences? Cela fait-il une différence s'il y a deux classes ou plus de deux classes?

24 regression logistic discriminant-analysis canonical-correlation reduced-rank-regression

3

Contrôle de santé mentale: à quel point une valeur de p peut-elle descendre?

J'utilise un test de ranksum pour comparer la médiane de deux échantillons ( ) et ont constaté qu'ils sont très différents avec: . Dois-je me méfier d'une si petite valeur ou dois-je l'attribuer à la puissance statistique élevée associée à la présence d'un très grand échantillon? Existe-t-il une valeur étrangement …

24 hypothesis-testing p-value sample-size power

2

Pourquoi lme et aov renvoient-ils des résultats différents pour les mesures répétées ANOVA dans R?

J'essaie de passer de l'utilisation du ezpackage à lmedes mesures répétées ANOVA (car j'espère que je pourrai utiliser des contrastes personnalisés avec lme). En suivant les conseils de ce billet de blog, j'ai pu configurer le même modèle en utilisant à la fois aov(comme le fait ez, sur demande) et …

24 r anova mixed-model repeated-measures lme4-nlme

4

Estimation du maximum de vraisemblance EM pour la distribution de Weibull

Remarque: Je poste une question d'un ancien élève qui ne peut pas publier seul pour des raisons techniques. Étant donné un échantillon iid d'une distribution de Weibull avec pdf y a-t-il une représentation de variable manquante utile et donc un algorithme EM (expectation-maximization) associé qui pourrait être utilisé pour trouver …

24 optimization missing-data expectation-maximization weibull gumbel