Data/Data Analysis
2019. 9. 16.
[Pyspark] dataframe join 문
pyspark dataframe을 처리할때 join문을 많이 쓰이게 되는데 항상 sql 문으로 변환하고 join문을 쓰기에는 너무 불필요한 과정이 많아서 pyspark로 한번 join을 해보자 먼저 예제를 보면 ta = TableA.alias('ta') tb = TableB.alias('tb') 이렇게 두개의 테이블을 선언하고 inner_join = ta.join(tb, ta.name == tb.name) inner_join.show() join함수를 사용하여 두 dataframe을 합체시키는데 실제로는 매 테이블을 일일히 다 따로 선언하고 join시키기엔 귀찮다 (그렇다 난 귀차니즘이다) 그래서 혹시나해서 바로 join할수있나 살펴 보았는데 저렇게 하나씩 선언할필요없이 바로 join이 가능했다 위에 껄..