Data/Data Engineering
2022. 2. 1.
[Pyspark] 소소한 지식 (pyspark, RDD, 캐싱, 파티셔닝, 최적화)
HDFS(Hadoop Distributed File System) 단일장비가 아닌 클러스터에 분산 저장을 하기때문에 큰 용량파일을 저장 할 수가 있음. Replication Factor로 인해, 여러 데이터 노드에 정보값을 복사 저장을해서, 문제가 발생해도 데이터를 불러읽을수있음. ... Pyspark? 요즘 대부분 우리가 알고있는 IT대기업들은 모두 pyspark를 사용중에있음(Netflix, Uber, MS ...). 빅데이터의 세가지문제로 출발해서 Pyspark를 만들게되었는데. 이 세가지 문제를 3V 라고도하는데 다음과같다. Velocity - 데이터의 생성되는 속도 증가 Volume - 데이터의 크기 증가 Variety - 데이터의 다양성 증가 위와같은 문제를 제일 처음겪은곳은 당연히 "Goog..