반응형
pyspark dataframe을 처리할때 join문을 많이 쓰이게 되는데
항상 sql 문으로 변환하고 join문을 쓰기에는 너무 불필요한 과정이 많아서 pyspark로 한번 join을 해보자
먼저 예제를 보면
ta = TableA.alias('ta')
tb = TableB.alias('tb')
이렇게 두개의 테이블을 선언하고
inner_join = ta.join(tb, ta.name == tb.name)
inner_join.show()
join함수를 사용하여 두 dataframe을 합체시키는데
실제로는 매 테이블을 일일히 다 따로 선언하고 join시키기엔 귀찮다
(그렇다 난 귀차니즘이다)
그래서 혹시나해서 바로 join할수있나 살펴 보았는데 저렇게 하나씩 선언할필요없이 바로 join이 가능했다
위에 껄로 예제를 하자면...
tb = TableB.alias('tb')
inner_join = TableA.join(tb, name == tb.name)
inner_join.show()
ta를 선언하는 과정을 줄일수가있다.
(그렇다 쓰다보니 그렇게 쓸모있는 정보는 아니였다)
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Pyspark] sorted와 sort 의 차이 (2) | 2019.11.14 |
---|---|
[Pyspark] pyspark 로컬에 설치 (1) | 2019.10.19 |
[Pyspark] pyspark 함수 정리(3) (0) | 2019.01.15 |
[Pyspark] pyspark 함수 정리(2) (0) | 2019.01.11 |
[Pyspark] pyspark 함수 정리(1) (0) | 2019.01.11 |