반응형
pyspark로 작업하다보면 비어있는 dataframe이 필요할때 있는데 간단히 정리
schema = StructType([StructField("UserId", StringType(), True)])
spark.createDataFrame([], schema).createOrReplaceTempView('Info')
이런식으로 StructField('컬럼명', 컬럼 타입, True) 로 설정한다. 여러 column일 경우엔 StructType안의 list에 콤마 구분으로 StructField를 늘리면된다
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Pyspark] 차원축소 pyspark.ml.feature의 PCA 사용 (0) | 2021.04.09 |
---|---|
[Pyspark] sparkSQL groupBy concat사용하기 (0) | 2021.02.24 |
[Pyspark] pyspark에서 percentile사용하기 (0) | 2020.12.10 |
[Pyspark] pyspark 파일 저장 coalesce함수가 시간이 오래걸릴때 (0) | 2020.11.24 |
[Pyspark ] pivot 함수 사용방법 (0) | 2020.11.18 |