question How to save each partition of a Dataframe/Dataset in parallel with partitionBy or InsertInto Hive in Support Questions

question How to save each partition of a Dataframe/Dataset in parallel with partitionBy or InsertInto Hive in Support Questions https://community.cloudera.com/t5/Support-Questions/How-to-save-each-partition-of-a-Dataframe-Dataset-in/m-p/46811#M24813 HelloI currently use spark 2.0.1 and i try to save my dataset into a "partitioned table Hive" with insertInto() or on S3 storage with partitionBy("col") with job in concurrency (parallel). But with this 2 methods each partition of my dataset is save sequentially one by one . It's very very SLOW.I already know that I must use insertInto() or partitionBy() one at time.I assume that in spark.2.0.1 Dataframe are Resilient Data Set .My current code :<PRE>df.write.mode(SaveMode.Append).partitionBy("col").save("s3://bucket/diroutput")</PRE>Or<PRE>df.write.mode(SaveMode.Append).insertInto("TableHivealreadypartitioned")</PRE>So I try some stuff with df.foreachPartition like this :<PRE>df.foreachPartition{datasetpartition => datasetpartition.foreach(row => row.sometransformation)}</PRE>Unfortunately i still do not find a way to write/save in parallel each partition of my dataset.Someone already done this?Can you tell me how to proceed?Is it a wrong direction?thanks for your help Fri, 16 Sep 2022 10:46:14 GMT damdr 2022-09-16T10:46:14Z