Newer
Older
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
---
html:
toc: true
offline: true
export_on_save:
html: true
---
# KMedoids Operator
---
## Operator 설명
- n개의 data를 k개의 클러스터로 나누는 것을 목적으로 하고 있다.
- 임의의 medoid 개수(k개)를 지정한다. medoid가 아닌 다른 객체를 임의로 지정하여 본래의 medoid와 임이의 medoid 간의 총 cost를 비교하여 임이의 medoid의 cost가 작으면 medoid를 임이의 medoid로 교체해준다.
<table>
<tr>
<th colspan="2">Data object</th>
<th colspan="2">Distance to</th>
</tr>
<tr>
<td>Index</td>
<td>Xi</td>
<td>c1= (3,4)</td>
<td>c2= (7,4)</td>
</tr>
<tr>
<td>1</td>
<td>(2,6)</td>
<td>3</td>
<td>7</td>
</tr>
<tr>
<td>2</td>
<td>(3,4)</td>
<td>0</td>
<td>4</td>
</tr>
<tr>
<td>3</td>
<td>(3,8)</td>
<td>4</td>
<td>8</td>
</tr>
<tr>
<td>4</td>
<td>(4,7)</td>
<td>4</td>
<td>6</td>
</tr>
<tr>
<td>5</td>
<td>(6,2)</td>
<td>5</td>
<td>3</td>
</tr>
<tr>
<td>6</td>
<td>(6,4)</td>
<td>3</td>
<td>1</td>
</tr>
<tr>
<td>7</td>
<td>(7,3)</td>
<td>5</td>
<td>1</td>
</tr>
<tr>
<td>8</td>
<td>(7,4)</td>
<td>4</td>
<td>0</td>
</tr>
<tr>
<td>9</td>
<td>(8,5)</td>
<td>6</td>
<td>2</td>
</tr>
<tr>
<td>10</td>
<td>(7,6)</td>
<td>6</td>
<td>2</td>
</tr>
<tr>
<td colspan="2">Cost</td>
<td>11</td>
<td>9</td>
</tr>
</table>
C1, C2와의 거리 계산 비용이다. X(2, 6)은 C1에 할당하게 된다. 즉 비용이 적으면 근접하다고 판단된다.(거리계산은 Manhattan 측정 방식 사용)
## Operator 파라미터 설명
- k_value: cluster의 개수 (required)
- maxIter: KMedoids를 한번 수행할 때 수행되는 최대 반복 횟수. KMedoids 시도 횟수 (required)
- seed: random seed 값 (optional)
##작동 순서
1. 입력 DataFrame의 유효성 검사를 진행한다. (K값, Numeric Columns)
2. 임의의 KMedoids 개수를 할당한다.
3. 총 거리 비용으로 메도이드를 결정한다. (거리계산은 Manhattan 측정 방식 사용)
4. 중심을 바꿔가며 계속 찾아나가 근접한 경우(비용이 적은) 메도이드를 변경해준다.
5. 최종 메도이드가 결정되면 메도이드를 중심으로 근접하는 클러스터를 할당한다.
6. 출력 DataFrame을 생성한다.
## Operator 모듈 테스트 결과
### 입력 데이터
| data1| data2|
|:---:|:---:|
| 2| 6|
| 3| 4|
| 3| 8|
| 4| 7|
| 6| 2|
| 6| 4|
| 7| 3|
| 7| 4|
| 8| 5|
| 7| 6|
### 결과 데이터
|index| data1| data2| CLUSTER|
:--:|:---:|:---:|:---:|
| 1| 2| 6| 0|
| 2| 3| 4| 0|
| 3| 3| 8| 0|
| 4| 4| 7| 0|
| 5| 6| 2| 1|
| 6| 6| 4| 1|
| 7| 7| 3| 1|
| 8| 7| 4| 1|
| 9| 8| 5| 1|
| 10| 7| 6| 1|
- 결과 데이터의 CLUSTER column에서 각 data들이 할당된 cluster를 보여준다.
- K 값을 2로 설정하였으므로 위와 같이 2개의 cluster에 data들이 할당되는 것을 알 수 있다.
- parameter는 다음과 같이 설정 하였다.
```scala
val kMedoidsInfo = KMedoidsInfo.newBuilder()
.setKValue(2)
.setMaxIter(100)
.setSeed(7)
.build
```