Coalesce Data/Data Analysis 2020. 11. 24. [Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때 pyspark에서 계산된 데이터프레임을 json파일로 떨굴때 다음과 같은 코드를 쓰는데 result.coalesce(1).write.mode('overwrite').json(s3_address) 충분한 계산환경에서도 유독 시간이 엄청 오래걸렸다... 거의 30분~40분정도. 그래서 원인을 찾아보니 팀장님께서 다음과같은 링크를 보내주셨고 https://stackoverflow.com/questions/55712934/converting-the-dataframe-to-json-takes-lot-of-time 결론적으로 coalesce부분을 repartition으로 바꿔주면 해결된다 result.repartition(1).write.mode('overwrite').json(s3_address) Data/Data Science 2019. 1. 21. [SQL] Coalesce 함수를 이용한 NULL값 처리 테이블에 NULL값을 처리할때 이전에는 다음과 같은 코드를 사용해서 처리했다 1234temp = spark.sql("""SELECT *, CASE WHEN column_1 IS NULL THEN 0 ELSE column_1 END AS hahaFROM temp_table""") 하지만 Coalesce함수를 사용하면 다음과 같이 코드가 짧아지게 된다 1234temp = spark.sql("""SELECT *, Coalesce(column_1, 0) AS hahaFROM temp_table""") 이전 1 다음