Data/Data Analysis

[Pyspark] dataframe join 문

재융 2019. 9. 16. 12:03
반응형

pyspark dataframe을 처리할때 join문을 많이 쓰이게 되는데

항상 sql 문으로 변환하고 join문을 쓰기에는 너무 불필요한 과정이 많아서 pyspark로 한번 join을 해보자

 

먼저 예제를 보면

ta = TableA.alias('ta')
tb = TableB.alias('tb')

이렇게 두개의 테이블을 선언하고

inner_join = ta.join(tb, ta.name == tb.name)
inner_join.show()

join함수를 사용하여 두 dataframe을 합체시키는데

 

실제로는 매 테이블을 일일히 다 따로 선언하고 join시키기엔 귀찮다

(그렇다 난 귀차니즘이다)

 

그래서 혹시나해서 바로 join할수있나 살펴 보았는데 저렇게 하나씩 선언할필요없이 바로 join이 가능했다

 

위에 껄로 예제를 하자면...

tb = TableB.alias('tb')
inner_join = TableA.join(tb, name == tb.name) 
inner_join.show()

ta를 선언하는 과정을 줄일수가있다.

(그렇다 쓰다보니 그렇게 쓸모있는 정보는 아니였다)

반응형