Aperçu Je suis relativement familier data.table, pas tellement dplyr. J'ai lu quelques dplyrvignettes et exemples qui ont surgi sur SO, et jusqu'à présent, mes conclusions sont les suivantes: data.tableet dplyrsont comparables en vitesse, sauf lorsqu'il existe de nombreux groupes (c.-à-d.> 10-100K) et dans certaines autres circonstances (voir les repères ci-dessous) …
tibble (précédemment tbl_df ) est une version d'une trame de données créée par le dplyrpackage de manipulation de trame de données dans R. Il empêche les sorties de table longues lors d'un appel accidentel de la trame de données. Une fois qu'une trame de données a été enveloppée par tibble …
Je dois filtrer une trame de données en utilisant comme critère les lignes dans lesquelles est contenue la chaîne RTB. J'utilise dplyr. d.del <- df %>% group_by(TrackingPixel) %>% summarise(MonthDelivery = as.integer(sum(Revenue))) %>% arrange(desc(MonthDelivery)) Je sais que je peux utiliser la fonction filterdans dplyrmais je ne sais pas exactement comment lui …
Le mutate peut-il être utilisé lorsque la mutation est conditionnelle (en fonction des valeurs de certaines valeurs de colonne)? Cet exemple aide à montrer ce que je veux dire. structure(list(a = c(1, 3, 4, 6, 3, 2, 5, 1), b = c(1, 3, 4, 2, 6, 7, 2, 6), c …
Existe-t-il un moyen plus succinct d'obtenir une colonne d'un tbl dplyr en tant que vecteur, à partir d'un tbl avec une base de données principale (c'est-à-dire que la trame / table de données ne peut pas être directement sous-ensemble)? require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) …
J'ai un avertissement multiple persistant de "colonne inconnue" pour tous les types de commandes (par exemple, str (x) pour installer les mises à jour sur les paquets), et je ne sais pas comment déboguer ceci ou le réparer. L'avertissement "colonne inconnue" est clairement lié à une variable dans un tbl_df …
Je souhaite utiliser dplyr::mutate()pour créer plusieurs nouvelles colonnes dans un bloc de données. Les noms de colonnes et leur contenu doivent être générés dynamiquement. Exemple de données d'iris: library(dplyr) iris <- tbl_df(iris) J'ai créé une fonction pour muter mes nouvelles colonnes à partir de la Petal.Widthvariable: multipetal <- function(df, n) …
J'essaie de transférer ma compréhension de plyr dans dplyr, mais je ne peux pas comprendre comment grouper par plusieurs colonnes. # make data with weird column names that can't be hard coded data = data.frame( asihckhdoydkhxiydfgfTgdsx = sample(LETTERS[1:3], 100, replace=TRUE), a30mvxigxkghc5cdsvxvyv0ja = sample(LETTERS[1:3], 100, replace=TRUE), value = rnorm(100) ) # …
Supposons que je veuille calculer la proportion de valeurs différentes dans chaque groupe. Par exemple, en utilisant les mtcarsdonnées, comment calculer la fréquence relative du nombre de vitesses par heure (automatique / manuel) en une seule fois dplyr? library(dplyr) data(mtcars) mtcars <- tbl_df(mtcars) # count frequency mtcars %>% group_by(am, gear) …
Question En utilisant dplyr , comment sélectionner les observations / lignes du haut et du bas de données groupées dans une instruction? Données et exemple Étant donné une trame de données df <- data.frame(id=c(1,1,1,2,2,2,3,3,3), stopId=c("a","b","c","a","b","c","a","b","c"), stopSequence=c(1,2,3,3,1,4,3,1,2)) Je peux obtenir les observations du haut et du bas de chaque groupe en …
Lorsque plyrje travaille avec, j'ai souvent trouvé utile d'utiliser adplypour les fonctions scalaires que je dois appliquer à chaque ligne. par exemple data(iris) library(plyr) head( adply(iris, 1, transform , Max.Len= max(Sepal.Length,Petal.Length)) ) Sepal.Length Sepal.Width Petal.Length Petal.Width Species Max.Len 1 5.1 3.5 1.4 0.2 setosa 5.1 2 4.9 3.0 1.4 0.2 …
J'ai vu l'utilisation de la fonction %>%(pourcentage supérieur à pourcentage) dans certains paquets comme dplyr et rvest . Qu'est-ce que ça veut dire? Est-ce un moyen d'écrire des blocs de fermeture dans R?
J'aime la fonction de changement de nom de plyr rename. J'ai récemment commencé à utiliser dplyr et je me demandais s'il existe un moyen simple de renommer des variables en utilisant une fonction de dplyr, qui est aussi facile à utiliser que celle de plyr rename?
Je me rends compte que la dplyrv3.0 vous permet de rejoindre sur différentes variables: left_join(x, y, by = c("a" = "b")correspondra x.aày.b Cependant, est-il possible de joindre sur une combinaison de variables ou dois-je ajouter une clé composite au préalable? Quelque chose comme ça: left_join(x, y, by = c("a c" …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.