본문 바로가기

Data/Data Statistics

(2)
[통계학] 가중평균(Weighted Average) 이번에 특정 지표를 제작할때, 전 팀장님께서 만들어두신 수식이 이해가안되서 부득이하게 이직하신 전팀장님에게 연락을 드려서 여쭤보았다... 결국엔 사용한 공식은 가중평균이였다. 평균을 산정하는데에는 두가지가 있는데 - 일반적으로 우리가 흔히 알고있는 "단순평균" 이 있고 - 이번 글에서 정리할 "가중평균"이 있다 자 그럼 두개가 어떤 차이가 있는지 알아보자. 만일 다음과같이 데이터가 있고. 속도위반기준이 110m/s라고 했을때. 차량속도 주행시간 100m/s 5s 130m/s 1s 차량속도의 단순평균의 값은 다음과 같이 계산할수있다 - (100m/s + 130m/s)/2 = 115m/s 단순평균으로 산정된 값은 115m/s로 속도위반이 되어버린다. 하지만 단순히 짧은 시간의 130m/s로 1분간 주행을 했..
[Outlier Detection] Outlier 탐지를 위한 몇가지 알고리즘 BoxPlot (IQR detection) 제일 간단한 방법으로 Outlier를 정의하는것같다. BoxPlot의 Outlier정의는 다음 그림과 같다. 위아래 직선이 각각 Max Outlier, Min Outlier로 설정하고 그 이상 혹은 이하면 Outlier로 분류한다. Max Outlier = Q3 + IQR * 1.5 Min Outlier = Q1 - IQR * 1.5 의 공식을 따른다. 여기서 각 인자에 대한 설명을 하자면 IQR = Q3 - Q1 = 75% 사분위수 - 25% 사분위수 이다. DBSCAN Machine Learning을 이용한 Outlier 분류이다. 알고리즘 특성상 Outlier에 대한 데이터는 클러스터링 처리를 안해줘서. 클러스터링 결과가 없는건 Outlier로 판단하면된다..