반응형
pyspark에서는 별도로 percentile함수가 없어보인다. 구글에 찾아봐도 결국엔 함수를 만들어서 사용하는것 같긴하지만... 혹시 함수가 있다면 댓글 부탁드립니다!
기존에는 percentile함수를 createOrReplaceTempView함수를 사용해서 SQL 테이블을 만들어서 SQL구문으로 percentile함수를 호출했는데.
이방식을 바로 pyspark에서 적용해보았다.
temp.select('date', 'Country', 'User')\
.groupBy('date').agg(F.expr('percentile(User, 0.9)').alias('percentile90'))\
.show(100,False)
이런방식으로 pyspark에서도 바로 percentile함수를 사용 할 수가 있다
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Pyspark] sparkSQL groupBy concat사용하기 (0) | 2021.02.24 |
---|---|
[Pyspark] 비어있는 dataframe만들기 (0) | 2021.01.18 |
[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때 (0) | 2020.11.24 |
[Pyspark ] pivot 함수 사용방법 (0) | 2020.11.18 |
[Pyspark] groupBy 개수 중복제거 countDistinct (0) | 2020.11.12 |