Comment importer un fichier .csv dans des cadres de données pyspark? J'ai même essayé de lire le fichier csv dans Pandas, puis de le convertir en un cadre de données spark à l'aide de createDataFrame, mais il affiche toujours une erreur. Quelqu'un peut-il me guider à travers cela? Aussi, dites-moi comment importer un fichier xlsx? J'essaie d'importer du contenu csv dans des cadres de données pandas, puis de le convertir en trames de données spark, mais cela montre l'erreur:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Mon code est:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)