groupby Data/Data Analysis 2020. 11. 12. [Pyspark] groupBy 개수 중복제거 countDistinct 데이터 분석을 할때 groupBy를 굉장히 많이 사용하는데. 이런 경험이 있었다. 예를들어서 df란 pyspark.DataFrame이 다음과 같이 있다면 date accountId timestamp another 2020-11-02 A 1 B 2020-11-02 A 2 C 2020-11-02 A 3 B 2020-11-02 A 4 D 2020-11-02 B 1 A 2020-11-02 B 2 C 여기서 날짜 그리고 accountId를 묶어서 another의 개수와 평균 timestamp를 계산하려고하면 이렇게 쓸수있을것이다 df.groupBy('date', 'accountId')\ .agg(F.count(F.col('another')).alias('count'), F.avg(F.col('timestamp').. Data/Data Analysis 2020. 11. 4. [Pandas] apply, map, groupby등 모르는거 정리 Apply pyspark 에서 udf성격을 띄는 pandas function 이다. # 한 컬럼만 적용할 경우 def stars(values): if values >= 95: return 3 elif values >= 85: return 2 else: return 1 df.values.apply(stars) # 여러 컬럼이 필요할 경우 def stars(df): if df.country == 'canada': return 3 elif df.score >= 95: return 3 elif df.score >= 85: return 2 else: return 1 df.apply(stars, axis='columns') Map 위처럼 함수를 사용하지않고 한줄의 코드로도 작성이 가능하다 # 만일 한 column에.. 이전 1 다음