반응형
pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데
result.coalesce(1).write.mode('overwrite').json(s3_address)
충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도.
그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고
https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time
결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다
result.repartition(1).write.mode('overwrite').json(s3_address)
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Pyspark] 비어있는 dataframe만들기 (0) | 2021.01.18 |
---|---|
[Pyspark] pyspark에서 percentile사용하기 (0) | 2020.12.10 |
[Pyspark ] pivot 함수 사용방법 (0) | 2020.11.18 |
[Pyspark] groupBy 개수 중복제거 countDistinct (0) | 2020.11.12 |
[Pandas] apply, map, groupby등 모르는거 정리 (0) | 2020.11.04 |