k-means 예제

다음은 K-means 클러스터링 예제 데이터 집합의 레이블 속성을 가져오는 코드입니다. 즉, 데이터 요소가 두 클러스터로 분류되는 방법입니다. 중요 사항: 값을 반복하여 두 점 사이의 거리를 수동으로 계산하려는 유혹이 있을 수 있습니다. 이것은 작동하지만 느린 k-means로 이어질 것입니다! 그리고 느린 k-means는 솔루션을 테스트하고 디버깅하기 위해 더 오래 기다려야 한다는 것을 의미합니다. 예를 들어, 데이터 포인트의 클러스터를 예측하기 위해 아래 코드를 사용해 보겠습니다: $mu_{c, i}$의 값을 학습하는 것은 피처에 할당된 값이 있는 데이터 집합을 제공하지만 클래스 변수는 해당 데이터 집합에서 k-means를 실행하는 것과 거의 동일합니다. 데이터를 시각화하고 임의 의 중심을 선택한다고 가정해 보기(이 예제에서는 4)는 관찰된 각 예제에 피처 집합이 있지만 레이블이 없는 데이터 집합이 제공된다고 가정해 보겠습니다. 라벨은 지원 벡터 기계와 같은 감독 알고리즘에 필수적인 성분으로, 주어진 기능을 예측하는 가설 함수를 학습합니다. 그래서 우리는 감독 학습을 실행할 수 없습니다. 우리는 무엇을 할 수 있는가? K-Means는 기계 학습 인증 교육에서 가장 중요한 알고리즘 중 하나입니다.

이 블로그에서는 예제를 통해 K-Means 클러스터링 알고리즘을 이해합니다. 이제 더 이상 재배치가 발생하지 않을 때까지 이 새 파티션에서 반복 재배치가 계속됩니다. 그러나 이 예제에서는 각 개인이 다른 클러스터의 클러스터 평균보다 더 가깝고 반복이 중지되어 최신 분할을 최종 클러스터 솔루션으로 선택합니다. 이제 데이터 요소가 4개의 다른 클러스터로 그룹화됩니다. k-means 클러스터링 알고리즘은 데이터 점 간의 거리를 최소화하여 함께 그룹화하는 간단한 아이디어를 사용하여 데이터의 구조, 관측값 분류 방법 및 비하인드 스토리를 해석하는 데 매우 유용합니다. K-means 클러스터링은 단일 세포 RNA-seq 및 대량 RNA-seq 실험에서 수천에서 수백만 개의 데이터 포인트를 분석하는 데 데이터 분석, 특히 생명 과학에서 널리 사용되어 왔습니다. 여기서는 k-means 클러스터링 알고리즘에 대한 몇 가지 기본 지식과 이를 명확하게 이해하는 데 도움이 되는 예시 예제를 제공합니다. 유클리드 메트릭은 두 점을 연결하는 벡터를 기준으로 거리를 측정하며, 저울이 다른 데이터에 대한 일부 편향을 유발합니다. 예를 들어 RNA-seq 데이터에서 유전자 발현 값은 0.001에서 천까지 다양하여 축을 따라 데이터 포인트를 늘릴 수 있습니다. 즉, 축을 따라 클러스터가 분산되기 때문에 축이 작은 변수는 쉽게 지배하고 수렴에서 거의 재생되지 않습니다. 따라서 k-means 클러스터링을 사용하기 전에 변수가 동일한 축척인지 확인해야 합니다.

이 예제에서는 이미 몇 가지 간단한 데이터 변환을 정리하고 완료했습니다. 팬더 데이터 프레임으로 데이터의 샘플은 다음과 같습니다. 또한 k-means 알고리즘이 최종 해결책을 찾지 못할 수도 있습니다. 이 경우 미리 선택된 최대 반복 후에 알고리즘을 중지하는 것이 좋습니다. 다음은 K-means 클러스터링에 대한 이해를 바탕으로 솔루션을 찾아내고 시도해 볼 수 있는 또 다른 예입니다. 그림 3: 다른 차원에서 KMeans. (왼쪽) 2D에서 K-평균. (오른쪽) 3D에서 K-평균. 당신은 4D에서 K-수단을 상상해야합니다. 특히 측정이 아닌 속도를 나타내는 기능 변환은 데이터를 정규화하는 데 도움이 될 수 있습니다. 예를 들어 위의 배달 차량 예에서 하루 평균 거리가 아닌 총 주행 거리가 사용되었다면 운전자는 시골이 아닌 회사를 위해 운전한 시간별로 그룹화되었을 것입니다.

Geplaatst in Geen categorie