반응형
항상 SQL 구문으로 WHERE IN 문을 쓰려고하니 pyspark로 dataframe을 뽑아내고 이후에 sql처리하는게 번거로워서 언젠간 pyspark로만 해결하는걸 찾아내겠다 했는데 이제서야 정리함
일단 함수는 pyspark.sql.functions의 col함수의 isin()함수를 사용할수가 있다.
방법은 다음과 같다
1 | where(col("name").isin("jaeyung", "haeju", "dugun", "daegaeman")) |
where절은 pyspark.dataframe밑의 함수다
위와같은 방법으로 걸러낼수있고 만약에 is not in을 사용하고싶다면 다음과 같은 방법을 이용한다
참고로 sql구문과는 다르게 not 이라는 함수는 없지만
마지막에 False라는 조건문을 걸어주면 된다
1 | where(col("name").isin("jaeyung", "haeju", "dugun", "daegaeman") == False) |
반응형
'Data > Data Science' 카테고리의 다른 글
[LightGBM] 알고리즘 설명(임시) (0) | 2019.03.04 |
---|---|
[Pyspark] dataframe에 default값이 들어가는 column생성 (0) | 2019.02.18 |
[SQL] Coalesce 함수를 이용한 NULL값 처리 (0) | 2019.01.21 |
[Pytorch] CrossEntropy, BCELoss 함수사용시 주의할점 (0) | 2018.11.07 |
[Pytorch] MNIST CNN 코드 작성 & 공부 (0) | 2018.10.08 |