backfill Data/Data Engineering 2022. 2. 2. [Airflow] 관련 정리 아래 정보들은 fastcampus의 강좌를 보고 중요한 내용만 정리한것입니다 :) 기존 방식의 문제점(이라 쓰고 Airflow는 이러한 문제점들을 해결해준다) 실패 복구 - 실패한 배치에 대해서 복구가 어렵다는점 모니터링 - 내가 등록한 배치가 잘 돌아가고있는지 확인하기 어려운점 의존성 관리 - 배치간의 의존성이 존재할경우 관리하기가 까다롭다 확장성 - 중앙화 해서 관리하는 도구가 없기때문에 분산된 환경에서 파이프라인들을 관리하기 힘듬 배포 - 새로운 워크 플로우를 배포하기 힘들다 Airflow 장점 Python으로 쉬운 프로그래밍 가능 (사람 코딩능력에 다르겠지만...) 분산된 환경에서 확장성이 있음 대시보드 존재 오픈소스이므로 커스터마이징 가능 위에 기존에 존재하던 문제점 해결가능 Airflow 구성.. Data/Data Analysis 2020. 3. 30. [Pandas] Dataframe resample 함수 시계열 데이터를 처리할 때 일정시간 간격이 벌어져있을때 upsampling, downsampling 기법을 이용하여 데이터를 늘리거나 줄인다. 이러한 방법은 pandas.Dataframe에서 resample함수를 이용하여 작업한다. 일단 해당 작업은 index가 datetime형식이여야 지원이 가능하다. 두가지 방법이있는데 다 알아보자 1. 복잡하지만 자세하게 세팅이 가능한 방법 먼저 데이터를 불러읽은다음에 info함수를 사용하여 column들의 정보를 빼온다. 현재 timestamp column은 string 형식이고 index가 아니기때문에 resample 함수를 쓸수가없음 따라서 다음과 같이 datetime으로 변환을 하고, 다시 info함수를 쓰면, 기존의 timestamp column이 date.. 이전 1 다음