La programmation dataframe

5

Spark DataFrame groupBy et tri dans l'ordre décroissant (pyspark)

J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère l'erreur suivante. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

5

comment diviser la colonne de tuples dans pandas dataframe?

J'ai un dataframe pandas (ce n'est qu'un petit morceau) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) RIDGE CV \ …

88 python numpy pandas dataframe tuples

6

Comment ajouter un suffixe (ou préfixe) à chaque nom de colonne?

Je veux ajouter un _xsuffixe à chaque nom de colonne comme ceci: featuresA = myPandasDataFrame.columns.values + '_x' Comment puis-je faire cela? De plus, si je voulais ajouter x_comme suffixe, comment la solution changerait-elle?

88 python pandas dataframe

7

Remplacement de quelques valeurs dans une colonne de dataframe pandas par une autre valeur

J'ai un pandas dataframe df comme illustré ci-dessous: BrandName Specialty A H B I ABC J D K AB L Je veux remplacer «ABC» et «AB» dans la colonne BrandName par A. Quelqu'un peut-il m'aider?

88 python replace pandas dataframe

17

Ajouter (insérer) une colonne entre deux colonnes dans un data.frame

J'ai un bloc de données qui a les colonnes a, b et c. Je voudrais ajouter une nouvelle colonne d entre b et c. Je sais que je pourrais simplement ajouter d à la fin en utilisant cbind mais comment puis-je l' insérer entre deux colonnes?

87 r dataframe insert

1

Appliquer la fonction à chaque cellule dans DataFrame

J'ai un dataframe qui peut ressembler à ceci: A B C foo bar foo bar bar foo foo bar Je veux parcourir chaque élément de chaque ligne (ou chaque élément de chaque colonne) et appliquer la fonction suivante pour obtenir le DF suivant: def foo_bar(x): return x.replace('foo', 'wow') A B …

87 python pandas dataframe apply

7

Ajouter une nouvelle colonne à la trame de données basée sur le dictionnaire

J'ai un dataframe et un dictionnaire. J'ai besoin d'ajouter une nouvelle colonne au cadre de données et de calculer ses valeurs en fonction du dictionnaire. Apprentissage automatique, ajout d'une nouvelle fonctionnalité basée sur un tableau: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df …

23 python pandas dataframe dictionary

5

Décompresser et compter les valeurs de retour pour chaque variable?

J'ai une base de données qui enregistre les réponses du choix des langues de programmation par 19717 personnes à travers des questions à choix multiples. La première colonne est bien sûr le sexe du répondant tandis que les autres sont les choix qu'ils ont choisis. Et donc si je choisis …

19 python pandas dataframe

4

Comparaison efficace des listes dans deux colonnes en ligne

Lorsque vous avez un Pandas DataFrame comme celui-ci: import pandas as pd import numpy as np df = pd.DataFrame({'today': [['a', 'b', 'c'], ['a', 'b'], ['b']], 'yesterday': [['a', 'b'], ['a'], ['a']]}) today yesterday 0 ['a', 'b', 'c'] ['a', 'b'] 1 ['a', 'b'] ['a'] 2 ['b'] ['a'] ... etc Mais avec environ …

16 python pandas numpy dataframe

3

Obtenez la distance la plus proche avec deux géodonnées dans des pandas

Voici mon premier géodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Ville1 City …

14 python pandas dataframe geolocation geopandas

4

Calculer le pourcentage de valeurs similaires dans la trame de données pandas

J'ai un dataframe df, avec deux colonnes: Script (avec texte) et Speaker Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 Et j'ai la liste suivante: L = ['a','b','c'] Avec le code suivant, df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L)) …

14 python python-3.x pandas dataframe

3

Pourquoi attribuer avec [:] versus iloc [:] donne des résultats différents chez les pandas?

Je suis tellement confus avec différentes méthodes d'indexation utilisées ilocdans les pandas. Disons que j'essaie de convertir un Dataframe 1-d en un Dataframe 2-d. J'ai d'abord le Dataframe 1-d suivant a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Et je vais convertir cela en un Dataframe 2D avec la taille de 2x4. …

13 python pandas dataframe

3

Réindexation DataFrame MultiIndex des pandas lents

J'ai un DataFrame pandas de la forme: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

13 python pandas numpy dataframe

1

Comment faire pivoter une colonne composée d'une trame de données avec une section et une sous-section dans R

J'ai une trame de données ci-dessous: structure( list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7", "P-8"), Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04", "2020-03-16 06:13:55", "2020-03-16 10:03:43", "2020-03-16 12:37:09", "2020-03-16 06:40:24", "2020-03-16 09:46:45", "2020-03-16 12:07:44", "2020-03-16 14:09:51", "2020-03-16 09:19:23"), Status = c("SA", "SA", "SA", "RE", "RE", "RE", …

12 r dataframe dplyr tidyverse tidyr

2

Générer des produits cartésiens binaires filtrés

Énoncé du problème Je recherche un moyen efficace de générer des produits cartésiens binaires complets (tableaux avec toutes les combinaisons de Vrai et Faux avec un certain nombre de colonnes), filtrés par certaines conditions exclusives. Par exemple, pour trois colonnes / bits, n=3nous aurions le tableau complet df_combs = pd.DataFrame(itertools.product(*([[True, …

12 python pandas dataframe

Questions marquées «dataframe»