본문 바로가기

Data/Data Analysis

[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때

반응형

pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데

result.coalesce(1).write.mode('overwrite').json(s3_address)

충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도.

그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고

https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time

 

결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다

result.repartition(1).write.mode('overwrite').json(s3_address)
반응형