본문 바로가기

재융

Notice

Recent Posts

Popular Posts

Recent Comments

Link

Calendar

Tags

더보기

Archives

Visits

Today

Yesterday

개발 공부방

repartition

[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때

Data/Data Analysis 2020. 11. 24. [Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때 pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데 result.coalesce(1).write.mode('overwrite').json(s3_address) 충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도. 그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고 https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time 결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다 result.repartition(1).write.mode('overwrite').json(s3_address)

이전 1 다음

티스토리툴바