Data/Data Analysis
[Pyspark] dataframe join 문
재융
2019. 9. 16. 12:03
반응형
pyspark dataframe을 처리할때 join문을 많이 쓰이게 되는데
항상 sql 문으로 변환하고 join문을 쓰기에는 너무 불필요한 과정이 많아서 pyspark로 한번 join을 해보자
먼저 예제를 보면
ta = TableA.alias('ta')
tb = TableB.alias('tb')
이렇게 두개의 테이블을 선언하고
inner_join = ta.join(tb, ta.name == tb.name)
inner_join.show()
join함수를 사용하여 두 dataframe을 합체시키는데
실제로는 매 테이블을 일일히 다 따로 선언하고 join시키기엔 귀찮다
(그렇다 난 귀차니즘이다)
그래서 혹시나해서 바로 join할수있나 살펴 보았는데 저렇게 하나씩 선언할필요없이 바로 join이 가능했다
위에 껄로 예제를 하자면...
tb = TableB.alias('tb')
inner_join = TableA.join(tb, name == tb.name)
inner_join.show()
ta를 선언하는 과정을 줄일수가있다.
(그렇다 쓰다보니 그렇게 쓸모있는 정보는 아니였다)
반응형