본문 바로가기

Data/Data Analysis

[Pyspark] pyspark에서 percentile사용하기

반응형

pyspark에서는 별도로 percentile함수가 없어보인다. 구글에 찾아봐도 결국엔 함수를 만들어서 사용하는것 같긴하지만... 혹시 함수가 있다면 댓글 부탁드립니다!

 

기존에는 percentile함수를 createOrReplaceTempView함수를 사용해서 SQL 테이블을 만들어서 SQL구문으로 percentile함수를 호출했는데.

 

이방식을 바로 pyspark에서 적용해보았다.

temp.select('date', 'Country', 'User')\
	.groupBy('date').agg(F.expr('percentile(User, 0.9)').alias('percentile90'))\
    .show(100,False)

 

이런방식으로 pyspark에서도 바로 percentile함수를 사용 할 수가 있다

반응형