La programmation dataframe

6

pandas: Comment diviser le texte d'une colonne en plusieurs lignes?

Je travaille avec un gros fichier csv et l'avant-dernière colonne contient une chaîne de texte que je souhaite diviser par un délimiteur spécifique. Je me demandais s'il existe un moyen simple de le faire en utilisant des pandas ou python? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 …

135 python pandas dataframe

8

pandas valeurs uniques plusieurs colonnes

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Quelle est la meilleure façon de renvoyer les valeurs uniques de «Col1» et «Col2»? La sortie souhaitée est 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

134 python pandas dataframe unique

4

Pandas Python: remplissez un dataframe ligne par ligne

La simple tâche d'ajouter une ligne à un pandas.DataFrameobjet semble être difficile à accomplir. Il y a 3 questions de stackoverflow liées à cela, dont aucune ne donne de réponse fonctionnelle. Voici ce que j'essaye de faire. J'ai un DataFrame dont je connais déjà la forme ainsi que les noms …

133 python dataframe row pandas

5

Pandas DataFrame: remplace toutes les valeurs d'une colonne, en fonction de la condition

J'ai un DataFrame simple comme le suivant: Je veux sélectionner toutes les valeurs de la colonne «Première saison» et remplacer celles qui sont supérieures à 1990 par 1. Dans cet exemple, seuls les Ravens de Baltimore auraient le 1996 remplacé par 1 (en gardant le reste des données intactes). J'ai …

132 python pandas dataframe

8

Omettre les lignes contenant une colonne spécifique de NA

Je veux savoir comment omettre des NAvaleurs dans un bloc de données, mais seulement dans certaines colonnes qui m'intéressent. Par exemple, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) mais je veux seulement omettre les données où se ytrouve NA, donc le résultat …

130 r dataframe na

2

Attribuez plusieurs colonnes en utilisant: = in data.table, par groupe

Quelle est la meilleure façon d'attribuer à plusieurs colonnes à l'aide de data.table? Par exemple: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Je voudrais faire quelque chose comme ça (bien sûr, cette syntaxe est incorrecte): x[ , (col1, col2) := f(), by = "id"] Et pour étendre …

130 r dataframe data.table variable-assignment colon-equals

9

Supprimer les parties indésirables des chaînes d'une colonne

Je recherche un moyen efficace de supprimer les parties indésirables des chaînes d'une colonne DataFrame. Les données ressemblent à: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a J'ai besoin de couper ces données pour: time result 1 09:00 52 2 10:00 …

129 python string pandas dataframe

5

R - Concaténer deux dataframes?

Étant donné deux dataframes aet b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 …

129 r dataframe concatenation

10

Comment ajouter une ligne à un bloc de données dans R?

Dans R, comment ajouter une nouvelle ligne à un bloc de données une fois que le bloc de données a déjà été initialisé? Jusqu'à présent, j'ai ceci: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", …

129 r dataframe

5

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je souhaite définir un partitionneur personnalisé sur DataFrames, dans Scala, mais je ne vois pas comment faire cela. L'une des tables de données avec lesquelles je travaille contient une liste de transactions, par compte, silimar à l'exemple suivant. Account …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?

J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) J'ai également eu une erreur en utilisant ceci: my_df_spark.withColumn("hours", …

129 python apache-spark dataframe pyspark apache-spark-sql

4

Concaténer une liste de dataframes pandas ensemble

J'ai une liste de dataframes Pandas que je voudrais combiner en une dataframe Pandas. J'utilise Python 2.7.10 et Pandas 0.16.2 J'ai créé la liste des dataframes à partir de: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) …

129 python pandas dataframe concat

5

Ajouter des dates manquantes à la base de données pandas

Mes données peuvent avoir plusieurs événements à une date donnée ou AUCUN événement à une date. Je prends ces événements, j'obtiens un décompte par date et je les trace. Cependant, lorsque je les trace, mes deux séries ne correspondent pas toujours. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() Dans le …

128 python date plot pandas dataframe

3

Plusieurs agrégations de la même colonne en utilisant pandas GroupBy.agg ()

Existe-t-il un moyen intégré à Pandas d'appliquer deux fonctions d'agrégation différentes f1, f2à la même colonne df["returns"], sans avoir à appeler agg()plusieurs fois? Exemple de dataframe: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : …

128 python pandas dataframe aggregate pandas-groupby

6

Comment écrire succinctement une formule avec de nombreuses variables à partir d'un bloc de données?

Supposons que j'ai une variable de réponse et une donnée contenant trois covariables (comme exemple de jouet): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Je souhaite ajuster une régression linéaire aux données: fit = lm(y ~ d$x1 + d$x2 + d$y2) Existe-t-il un …

127 r dataframe glm lm

Questions marquées «dataframe»