Published: Jun 16, 2020 by Dev-hwon
계층적 군집화(Hierarchical Clustering)
- 계층적 트리로 구성된 중첩 클러스터 셋 생성
- Dendrogram으로 시각화
1. 장점
- 특정 수의 클러스터를 가정할 필요가 없다(Dendrogram에서 적절한 수준에서 절단)
- meaningful taxonomies이다.
2. 방법
1) 모든 관측치를 개별 군집으로 간주한다.
2) 가장 작은 거리를 가진 두 개의 클러스터를 선택한다.
3) 군집 사이의 거리를 정의한다(다른 군집의 관측치 간의 최소거리로 정의)
4) 모든 관측치가 단일 군집에 속할 때까지 병합한다.
5) 절삭점을 이용하여 클러스터를 정의 할 수 있다.(다른 절삭점을 적용하여 다른 클러스터링 결과 얻을 수 있다.)
3. 종류
1) Minimum Distance(simple linkage) -> 장: 비타원 모양 처리 가능 / 단: 노이즈와 이상치에 민감
2) Maximum Distance(complete linkage) -> 장: 노이즈와 이상치에 덜 민감 / 단: 큰 클러스터를 깰 경향, 구상 성단 쪽으로 치우침
3) Group Distance(Average linkage)
4) Distance between centroid