본문 바로가기

Data/Data Science

[Pyspark] Pyspark dataframe isin 과 is not in 방법

반응형

항상 SQL 구문으로 WHERE IN 문을 쓰려고하니 pyspark로 dataframe을 뽑아내고 이후에 sql처리하는게 번거로워서 언젠간 pyspark로만 해결하는걸 찾아내겠다 했는데 이제서야 정리함


일단 함수는 pyspark.sql.functions의 col함수의 isin()함수를 사용할수가 있다.


방법은 다음과 같다

1
where(col("name").isin("jaeyung""haeju""dugun""daegaeman"))


where절은 pyspark.dataframe밑의 함수다


위와같은 방법으로 걸러낼수있고 만약에 is not in을 사용하고싶다면 다음과 같은 방법을 이용한다

참고로 sql구문과는 다르게 not 이라는 함수는 없지만

마지막에 False라는 조건문을 걸어주면 된다


1
where(col("name").isin("jaeyung""haeju""dugun""daegaeman"== False)


반응형