J'ai 10 trames de données pyspark.sql.dataframe.DataFrame
, obtenues à partir randomSplit
de (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)
maintenant , je veux rejoindre 9 td
« s en une seule trame de données, comment dois - je faire?
J'ai déjà essayé avec unionAll
, mais cette fonction n'accepte que deux arguments.
td1_2 = td1.unionAll(td2)
# this is working fine
td1_2_3 = td1.unionAll(td2, td3)
# error TypeError: unionAll() takes exactly 2 arguments (3 given)
Existe-t-il un moyen de combiner plus de deux trames de données en ligne?
Le but de cela est que je fais la validation croisée 10 fois manuellement sans utiliser la CrossValidator
méthode PySpark , donc en prenant 9 en formation et 1 en données de test, puis je le répéterai pour d'autres combinaisons.