Data/Data Analysis
2019. 1. 11.
[Pyspark] pyspark 함수 정리(1)
csv, parquet파일 읽어오기12345678910# CSV 파일 읽기df = spark.read.csv("...")df.printSchema()df.show() # parquet으로 저장된 파일 읽기 df2 = spark.read.parquet("...")df2.printSchema()df2.show() agg(*exprs)exprs에 들어있는 표현식으로 dataframe 계산"age" : "max" -> age column에서 최대값을 반환 123456df.agg({"age": "max"}).collect()>>> [Row(max(age) = 5)] from pyspark.sql import functions as Fdf.agg(F.min(df.age)).collect()>>> [Row(min(a..