Data/Data Analysis
2019. 11. 14.
[Pyspark] sorted와 sort 의 차이
pyspark에서 예를들어서 collect_list함수를 사용할때 단점이 있는데 - 순서가 상관없이 list가 생성이된다 따라서 collect_list사용후 sorting을 해줘야 나중에 groupBy등 함수를 사용할때 똑바르게 합쳐지는데 이때 sorting을 udf함수로 직접 만들어줘서 사용해야한다. import pyspark.sql.functions as F def sorting_list_pyspark_ver1(temp): return temp.sort() def sorting_list_pyspark_ver2(temp): return sorted(temp) 이렇게 두가지 방법으로 선언할수가있는데 언뜻보기에는 별다른 문제가 없어보이지만 직접 실행해보면 ver1에는 원하는 값이 안나오고 null값이 찍히..