DBSCAN Data/Data Science 2021. 4. 22. [ML] Clustering 정리 및 DBSCAN Clustering 비지도학습 머신러닝 기법중 하나 클러스터링 종류 Hard Clustering - 한 개체가 여러 군집에 속할수 없는 군집화 방법 Soft Clustering - 한 개체가 여러 군집에 속할수 있는 군집화 방법 Partitional Clustering - 전체 데이터의 영역을 특정 기준에 의해 동시에 구분하는 군집화 방법. 각 개체들은 사전에 정의된 개수의 군집 가운데 하나에 속하게 됨 대표적으로 K-Mean 군집화 Hierarchical Clustering - 개체들을 가까운 집단부터 차근차근 묶어나가는 군집화 방법. *덴드로그램을 생성함 덴드로그램 → 계층적 군집에서 클러스터의 개수를 지정해주지 않아도 학습을 수행할 수 있는 것은 개체들이 결합되는 순서를 나타내는 트리 형태의 구조 .. Data/Data Statistics 2020. 12. 11. [Outlier Detection] Outlier 탐지를 위한 몇가지 알고리즘 BoxPlot (IQR detection) 제일 간단한 방법으로 Outlier를 정의하는것같다. BoxPlot의 Outlier정의는 다음 그림과 같다. 위아래 직선이 각각 Max Outlier, Min Outlier로 설정하고 그 이상 혹은 이하면 Outlier로 분류한다. Max Outlier = Q3 + IQR * 1.5 Min Outlier = Q1 - IQR * 1.5 의 공식을 따른다. 여기서 각 인자에 대한 설명을 하자면 IQR = Q3 - Q1 = 75% 사분위수 - 25% 사분위수 이다. DBSCAN Machine Learning을 이용한 Outlier 분류이다. 알고리즘 특성상 Outlier에 대한 데이터는 클러스터링 처리를 안해줘서. 클러스터링 결과가 없는건 Outlier로 판단하면된다.. 이전 1 다음