본문 바로가기

재융

Notice

Recent Posts

Popular Posts

Recent Comments

Link

Calendar

Tags

더보기

Archives

Visits

Today

Yesterday

개발 공부방

Persist

[Pyspark] 소소한 지식 (pyspark, RDD, 캐싱, 파티셔닝, 최적화)

Data/Data Engineering 2022. 2. 1. [Pyspark] 소소한 지식 (pyspark, RDD, 캐싱, 파티셔닝, 최적화) HDFS(Hadoop Distributed File System) 단일장비가 아닌 클러스터에 분산 저장을 하기때문에 큰 용량파일을 저장 할 수가 있음. Replication Factor로 인해, 여러 데이터 노드에 정보값을 복사 저장을해서, 문제가 발생해도 데이터를 불러읽을수있음. ... Pyspark? 요즘 대부분 우리가 알고있는 IT대기업들은 모두 pyspark를 사용중에있음(Netflix, Uber, MS ...). 빅데이터의 세가지문제로 출발해서 Pyspark를 만들게되었는데. 이 세가지 문제를 3V 라고도하는데 다음과같다. Velocity - 데이터의 생성되는 속도 증가 Volume - 데이터의 크기 증가 Variety - 데이터의 다양성 증가 위와같은 문제를 제일 처음겪은곳은 당연히 "Goog..

이전 1 다음

티스토리툴바