agg Data/Data Analysis 2020. 11. 12. [Pyspark] groupBy 개수 중복제거 countDistinct 데이터 분석을 할때 groupBy를 굉장히 많이 사용하는데. 이런 경험이 있었다. 예를들어서 df란 pyspark.DataFrame이 다음과 같이 있다면 date accountId timestamp another 2020-11-02 A 1 B 2020-11-02 A 2 C 2020-11-02 A 3 B 2020-11-02 A 4 D 2020-11-02 B 1 A 2020-11-02 B 2 C 여기서 날짜 그리고 accountId를 묶어서 another의 개수와 평균 timestamp를 계산하려고하면 이렇게 쓸수있을것이다 df.groupBy('date', 'accountId')\ .agg(F.count(F.col('another')).alias('count'), F.avg(F.col('timestamp').. Data/Data Analysis 2019. 1. 11. [Pyspark] pyspark 함수 정리(1) csv, parquet파일 읽어오기12345678910# CSV 파일 읽기df = spark.read.csv("...")df.printSchema()df.show() # parquet으로 저장된 파일 읽기 df2 = spark.read.parquet("...")df2.printSchema()df2.show() agg(*exprs)exprs에 들어있는 표현식으로 dataframe 계산"age" : "max" -> age column에서 최대값을 반환 123456df.agg({"age": "max"}).collect()>>> [Row(max(age) = 5)] from pyspark.sql import functions as Fdf.agg(F.min(df.age)).collect()>>> [Row(min(a.. 이전 1 다음