Data/Data Analysis
2020. 11. 12.
[Pyspark] groupBy 개수 중복제거 countDistinct
데이터 분석을 할때 groupBy를 굉장히 많이 사용하는데. 이런 경험이 있었다. 예를들어서 df란 pyspark.DataFrame이 다음과 같이 있다면 date accountId timestamp another 2020-11-02 A 1 B 2020-11-02 A 2 C 2020-11-02 A 3 B 2020-11-02 A 4 D 2020-11-02 B 1 A 2020-11-02 B 2 C 여기서 날짜 그리고 accountId를 묶어서 another의 개수와 평균 timestamp를 계산하려고하면 이렇게 쓸수있을것이다 df.groupBy('date', 'accountId')\ .agg(F.count(F.col('another')).alias('count'), F.avg(F.col('timestamp')..