Questions marquées «dataframe»

Un bloc de données est une structure de données tabulaire. Habituellement, il contient des données où les lignes sont des observations et les colonnes sont des variables de différents types. Alors que "data frame" ou "dataframe" est le terme utilisé pour ce concept dans plusieurs langues (R, Apache Spark, deedle, Maple, la bibliothèque pandas en Python et la bibliothèque DataFrames en Julia), "table" est le terme utilisé dans MATLAB et SQL.


8
pandas valeurs uniques plusieurs colonnes
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Quelle est la meilleure façon de renvoyer les valeurs uniques de «Col1» et «Col2»? La sortie souhaitée est 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

4
Pandas Python: remplissez un dataframe ligne par ligne
La simple tâche d'ajouter une ligne à un pandas.DataFrameobjet semble être difficile à accomplir. Il y a 3 questions de stackoverflow liées à cela, dont aucune ne donne de réponse fonctionnelle. Voici ce que j'essaye de faire. J'ai un DataFrame dont je connais déjà la forme ainsi que les noms …
133 python  dataframe  row  pandas 


8
Omettre les lignes contenant une colonne spécifique de NA
Je veux savoir comment omettre des NAvaleurs dans un bloc de données, mais seulement dans certaines colonnes qui m'intéressent. Par exemple, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) mais je veux seulement omettre les données où se ytrouve NA, donc le résultat …
130 r  dataframe  na 



5
R - Concaténer deux dataframes?
Étant donné deux dataframes aet b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 …

10
Comment ajouter une ligne à un bloc de données dans R?
Dans R, comment ajouter une nouvelle ligne à un bloc de données une fois que le bloc de données a déjà été initialisé? Jusqu'à présent, j'ai ceci: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", …
129 r  dataframe 


9
Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?
J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) J'ai également eu une erreur en utilisant ceci: my_df_spark.withColumn("hours", …

4
Concaténer une liste de dataframes pandas ensemble
J'ai une liste de dataframes Pandas que je voudrais combiner en une dataframe Pandas. J'utilise Python 2.7.10 et Pandas 0.16.2 J'ai créé la liste des dataframes à partir de: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) …

5
Ajouter des dates manquantes à la base de données pandas
Mes données peuvent avoir plusieurs événements à une date donnée ou AUCUN événement à une date. Je prends ces événements, j'obtiens un décompte par date et je les trace. Cependant, lorsque je les trace, mes deux séries ne correspondent pas toujours. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() Dans le …
128 python  date  plot  pandas  dataframe 



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.