비지도학습 - Dev-hwon's blog

비지도학습

Published: Jan 21, 2020 by Dev-hwon

Unsupervised Learning (비지도학습)

데이터가 어떻게 구성되었는지를 알아내는 문제의 범주
지도 학습(Supervised Learning) 혹은 강화 학습(Reinforcement Learning)과는 달리 입력값에 대한 목표치가 주어지지 않는다.
클러스터링: 같은 그룹 내의 객체 간의 거리는 작고, 서로 다른 그룹에 속한 객체 간 거리는 큰 그룹들을 찾는 것. 데이터의 분포를 보기 위함이나 다른 알고리즘으로의 전처리 과정으로 사용(예: 패턴인식, 이미치 처리, 문서 분류 등)

비지도학습 종류 별 간단 설명

자세한 설명은 따로 포스트할 예정

1. K-means

k개의 군집의 중심 좌표를 기준으로 각 객체를 가까운 군집에 배정

1) k개의 중심 임의로 할당

2) 각 중심점에서 가까운 점들을 각 그룹으로 할당

3) 군집내의 모든 점으로 평균을 내어 새로운 그룹별 중심을 찾는다.

4) 새로운 중심에서 새로운 그룹으로 할당

5) 변화가 없을 때까지 2~4 반복

군내 변동이 작고 군간 변동이 클수록 성능이 좋다고 할 수 있다.
장점: 연산 시간이 적게 소요되고 대규모 자료의 군집화시 유용
단점: 군집의 수 k의 결정이 어렵고 이상값(노이즈) 민감

2. K-medoids

클러스터 내 중심에 위치한 객체를 이용
k-means보다 이상치에 강하고 인풋의 순서에 영향을 받지 않음
k-means보다 느림
하나의 클러스터가 하나의 객체로 대표될 수 있다는 특징

1) k개의 대표 객체를 임의로 선택

2) 남아있는 비대표 객체들을 가장 근접한 대표 객체가 속한 클러스터에 할당

3) 임의로 비대표 객체 h를 선택하여 각 대표 i에 대해 swapping cost 계산

4) swapping cost < 0 이라면 i 대신 h를 새로운 대표 객체로 설정

5) 변화가 없을 때까지 2~4 반복

3. Hierarchical Clustering(계층 분석)

비슷한 군집끼리 묶어가면서 최종적으로는 하나의 케이스가 될 때까지 묶은 클러스터링 알고리즘

agglomerative(AGNES)
divisive(DIANA)

좀 더 자세히 보기

비지도학습 Unsupervised Learning 군집 클러스터 Cluster K-means K-medoids 계층 분석 Hierarchical Clustering 데이터 마이닝 Data Mining

Latest Posts

Parzen Window Density Estimation

Parzen Window Density Estimation

자세히 보기

Gaussian Density Estimation

Gaussian Density Estimation

자세히 보기

Anomaly Detection

Anomaly Detection

자세히 보기