반응형
*collect_list 함수란 한개의 id기준으로 여러가지 값을 가질때 값들을 배열 형식으로 묶어주는 함수이다[SparkSQL도 가능]
예를 들어서: table item_info라는 테이블이 다음과 같이 존재할 때
ID |
ITEM |
jaeyung |
20 |
yoon |
30 |
jaeyung |
50 |
haeju |
40 |
yoon | 50 |
joowon | 10 |
다음과 같은 명령어로 ID에 따른 아이템들을 배열로 묶을 수가 있다
명령어: SELECT ID, COLLECT_LIST(ITEM) AS ITEM_LIST FROM item_info GROUP BY ID
ID | ITEM_LIST |
jaeyung |
[20, 50] |
yoon |
[30, 50] |
haeju |
[40] |
joowon |
[10] |
위와 같은 테이블이 반환이 된다.
p.s 순간 쓰려고하니 까먹어서 엄청 애먹었다...
반응형
'Data > Data Analysis' 카테고리의 다른 글
[Pyspark] pyspark 함수 정리(1) (0) | 2019.01.11 |
---|---|
[SQL] OVER함수 및 PARTITION BY 사용법 (0) | 2019.01.07 |
[SQL] strptime 함수 사용하기 (0) | 2018.12.27 |
[Pyspark] DataFrame 조작 명령어 정리 (0) | 2018.12.20 |
[SQL] UNION, JOIN명령어 (1) | 2018.12.18 |