Show the Data

pyspark를 통해서 읽어들어온 데이터는 show명령어로 dataframe을 볼 수가 있다

dfs.show()

+----+------+--------+
|age | id   |  name  |
+----+------+--------+
| 25 | 1201 | satish |
| 28 | 1202 | krishna|
| 39 | 1203 | amith  |
| 23 | 1204 | javed  |
| 23 | 1205 | prudvi |
+----+------+--------+

show에는 두가지 인자를 넣을 수가 있다

예를들어 show(5, False)일 경우 앞의 5개 데이터셋을 보여주고 False는 요약하지않고 모든 스트링을 출력한다는 의미

PrintSchema

dfs.printSchema()

root
   |-- age: string (nullable = true)
   |-- id: string (nullable = true)
   |-- name: string (nullable = true)

dataframe에 각 column별 형식을 출력

Select

dfs.select('name').show()

+--------+
|  name  |
+--------+
| satish |
| krishna|
| amith  |
| javed  |
| prudvi |
+--------+

특정 column을 지정해서 dataframe 출력

Filter

dfs.filter(dft('age') > 23).show()

+----+------+--------+
|age | id   | name   |
+----+------+--------+
| 25 | 1201 | satish |
| 28 | 1202 | krishna|
| 39 | 1203 | amith  |
+----+------+--------+

조건문을 걸어서 dataframe 조작(SQL의 WHERE과 유사)

groupBy

dfs.groupBy("age").count().show()

+----+-----+
|age |count|
+----+-----+
| 23 |  2  |
| 25 |  1  |
| 28 |  1  |
| 39 |  1  |
+----+-----+

SQL문법과 같이 특정 카테고리로 묶어서 다양한 연산 가능

'Data > Data Analysis' 카테고리의 다른 글

[SQL]collect_list 함수 사용 (0)	2019.01.07
[SQL] strptime 함수 사용하기 (0)	2018.12.27
[SQL] UNION, JOIN명령어 (1)	2018.12.18
[SQL] Group by 명령어 (0)	2018.11.26
[SQL] SELECT 명령어 모음 (0)	2018.11.26

개발 공부방

[Pyspark] DataFrame 조작 명령어 정리

Show the Data

PrintSchema

Select

Filter

groupBy

'Data > Data Analysis' 카테고리의 다른 글

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

[Pyspark] DataFrame 조작 명령어 정리

Show the Data

PrintSchema

Select

Filter

groupBy

'Data > Data Analysis' 카테고리의 다른 글

'Data/Data Analysis' 관련글

티스토리툴바