본문 바로가기

Data/Data Science

[Pyspark] dataframe에 default값이 들어가는 column생성

반응형

dataframe에 없고 내가 원하는 값만 들어가는 column을 생성하고 싶을때는


pyspark.sql.functions의 lit함수를 사용하면 간단하게 추가할수가 있다


예제는 다음과 같다

1
2
3
4
5
6
7
8
>>> from pyspark.sql.functions import lit
>>> df1.withColumn('manager1',lit('x1')).show()
+--------+--------+
|manager1|manager2|
+--------+--------+
|      x1|  value2|
|      x1|  value4|
+--------+--------+


반응형