[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때

pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데

result.coalesce(1).write.mode('overwrite').json(s3_address)

충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도.

그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고

결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다

result.repartition(1).write.mode('overwrite').json(s3_address)

[Pyspark] 비어있는 dataframe만들기 (0)	2021.01.18
[Pyspark] pyspark에서 percentile사용하기 (0)	2020.12.10
[Pyspark ] pivot 함수 사용방법 (0)	2020.11.18
[Pyspark] groupBy 개수 중복제거 countDistinct (0)	2020.11.12
[Pandas] apply, map, groupby등 모르는거 정리 (0)	2020.11.04

개발 공부방