Data/Data Analysis
2020. 11. 24.
[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때
pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데 result.coalesce(1).write.mode('overwrite').json(s3_address) 충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도. 그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고 https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time 결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다 result.repartition(1).write.mode('overwrite').json(s3_address)