Questions marquées «pandas»

Pandas est une bibliothèque Python pour la manipulation et l'analyse des données, par exemple les trames de données, les séries chronologiques multidimensionnelles et les jeux de données transversaux que l'on trouve couramment dans les statistiques, les résultats de la science expérimentale, l'économétrie ou la finance. Pandas est l'une des principales bibliothèques de science des données en Python.

2
Déduire quelles colonnes sont datetime
J'ai une énorme trame de données avec de nombreuses colonnes, dont beaucoup sont de type datetime.datetime. Le problème est que beaucoup ont également des types mixtes, y compris par exemple des datetime.datetimevaleurs et des Nonevaleurs (et potentiellement d'autres valeurs invalides): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 …
14 python  pandas 


1
La fonction to_excel de pandas génère une TypeError inattendue
J'ai créé un dictionnaire de données pandas: d[k] = pd.DataFrame(data=data[i]) Je suppose donc que d[k]c'est une trame de données pandas correcte. alors for k in d.keys(): d[k].to_excel (file_name) Ensuite, j'ai l'erreur: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element J'utilise Python 3.7, pandas 0.25.3. Mise …

3
Réindexation DataFrame MultiIndex des pandas lents
J'ai un DataFrame pandas de la forme: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

2
Générer des produits cartésiens binaires filtrés
Énoncé du problème Je recherche un moyen efficace de générer des produits cartésiens binaires complets (tableaux avec toutes les combinaisons de Vrai et Faux avec un certain nombre de colonnes), filtrés par certaines conditions exclusives. Par exemple, pour trois colonnes / bits, n=3nous aurions le tableau complet df_combs = pd.DataFrame(itertools.product(*([[True, …

1
pandasUDF et pyarrow 0.15.0
J'ai récemment commencé à obtenir un tas d'erreurs sur un certain nombre de pysparktravaux exécutés sur des clusters EMR. Les erros sont java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at …


9
créer une matrice NxN à partir d'une pandas de colonne
j'ai un dataframe avec chaque ligne ayant une valeur de liste. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] je dois faire un calcul d'un score avec une ligne et contre toutes les autres lignes Par exemple: Step 1: Take value of id 0: ['a','b','c'], Step 2: find …
11 python  pandas  numpy 







2
Pandas: segmentation en zigzag des données en fonction des minima-maxima locaux
J'ai des données de série temporelle. Génération de données date_rng = pd.date_range('2019-01-01', freq='s', periods=400) df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)), columns=['data1', 'data2', 'data3'], index= date_rng) s = df['data1'] Je veux créer une ligne en zig-zag reliant entre les maxima locaux et les minima locaux, qui satisfait la condition selon laquelle sur …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.