Statistiques et Big Data

Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données





2
Comment inclure un terme d'interaction dans GAM?
Le code suivant évalue la similitude entre deux séries chronologiques: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) …

3
Corrélation entre deux séries chronologiques
Quelle est la méthode / méthode la plus simple pour calculer la corrélation entre deux séries chronologiques qui ont exactement la même taille? J'ai pensé multiplier et , et additionner la multiplication. Donc, si ce nombre unique était positif, peut-on dire que ces deux séries sont corrélées? Je peux penser …


1
Qui a inventé la validation croisée k-fold?
Je cherche une référence à l'article où la validation croisée k-fold a été introduite (plutôt qu'une simple bonne référence académique pour le sujet). Il est peut-être trop loin dans la nuit des temps pour identifier sans ambiguïté le tout premier article, de sorte que tous les premiers articles où l'idée …

3
Comment faire une régression logistique dans R lorsque le résultat est fractionné (un rapport de deux comptes)?
J'examine un article qui a l'expérience biologique suivante. Un dispositif est utilisé pour exposer les cellules à différentes quantités de contrainte de cisaillement fluide. À mesure qu'une plus grande contrainte de cisaillement est appliquée aux cellules, un plus grand nombre d'entre elles commencent à se détacher du substrat. À chaque …

3
Les échantillons non aléatoires peuvent-ils être analysés à l'aide de tests statistiques standard?
De nombreuses études cliniques sont basées sur des échantillons non aléatoires. Cependant, la plupart des tests standard (par exemple tests t, ANOVA, régression linéaire, régression logistique) sont basés sur l'hypothèse que les échantillons contiennent des "nombres aléatoires". Les résultats sont-ils valables si ces échantillons non aléatoires ont été analysés par …





4
Estimation du maximum de vraisemblance EM pour la distribution de Weibull
Remarque: Je poste une question d'un ancien élève qui ne peut pas publier seul pour des raisons techniques. Étant donné un échantillon iid d'une distribution de Weibull avec pdf y a-t-il une représentation de variable manquante utile et donc un algorithme EM (expectation-maximization) associé qui pourrait être utilisé pour trouver …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.