Newer
Older
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
---
html:
toc: true
offline: true
export_on_save:
html: true
---
# EM Clustering Operator
---
## Operator 설명
- k개의 cluster로 분할하기 위해 반복적으로 두 단계(기댓값 단계,최대화 단계)를 수행한다.
- EM 알고리즘은 매개변수에 관한 추정값으로 로그가능도(log likelihood)의 기댓값을 계산하는 기댓값 (E) 단계와 이 기댓값을 최대화하는 변수값을 구하는 최대화 (M) 단계를 번갈아가면서 적용한다. 최대화 단계에서 계산한 변수값은 다음 기댓값 단계의 추정값으로 쓰인다.
## Operator 파라미터 설명
- k_value: cluster의 개수 (required)
- maxIter: EMClustering을 한번 수행할 때 수행되는 최대 반복 횟수. EMClustering 시도 횟수(required)
## 작동순서
1. 입력 DataFrame의 유효성 검사를 진행한다. (K값, maxIter, Numeric Columns)
2. 입력 DataFrame을 Vectors로 변환 후 featurs 칼럼에 재생성한다.
3. Spark ml의 GaussianMixture 알고리즘을 사용한다. (expectation maximization 수행)
4. 출력 DataFrame을 생성한다.
## Operator 모듈 테스트 결과
### 입력 데이터
|a1| a2| a3| a4|
|:---:|:---:|:---:|:---:|
|5.1|3.5|1.4|0.2|
|4.9|3.0|1.4|0.2|
|4.7|3.2|1.3|0.2|
|4.6|3.1|1.5|0.2|
|5.0|3.6|1.4|0.2|
|5.4|3.9|1.7|0.4|
|4.6|3.4|1.4|0.3|
|5.0|3.4|1.5|0.2|
|4.4|2.9|1.4|0.2|
|4.9|3.1|1.5|0.1|
|5.4|3.7|1.5|0.2|
|4.8|3.4|1.6|0.2|
|4.8|3.0|1.4|0.1|
|4.3|3.0|1.1|0.1|
|5.8|4.0|1.2|0.2|
### 결과 데이터
|index| a1| a2| a3| a4|cluster|
|:---:|:---:|:---:|:---:|:---:|:---:|
| 1|5.1|3.5|1.4|0.2| 0|
| 2|4.9|3.0|1.4|0.2| 0|
| 3|4.7|3.2|1.3|0.2| 0|
| 4|4.6|3.1|1.5|0.2| 0|
| 5|5.0|3.6|1.4|0.2| 0|
| 6|5.4|3.9|1.7|0.4| 1|
| 7|4.6|3.4|1.4|0.3| 0|
| 8|5.0|3.4|1.5|0.2| 0|
| 9|4.4|2.9|1.4|0.2| 0|
| 10|4.9|3.1|1.5|0.1| 0|
| 11|5.4|3.7|1.5|0.2| 0|
| 12|4.8|3.4|1.6|0.2| 0|
| 13|4.8|3.0|1.4|0.1| 0|
| 14|4.3|3.0|1.1|0.1| 1|
| 15|5.8|4.0|1.2|0.2| 1|
- 결과 데이터의 cluster column에서 각 data들이 할당된 cluster를 보여준다.
- K 값을 2로 설정하였으므로 위와 같이 2개의 cluster에 data들이 할당되는 것을 알 수 있다.
- parameter는 다음과 같이 설정하였다.
```scala
val eMClusteringInfo =
EMClusteringInfo.newBuilder()
.setKValue(2)
.setMaxIter(100)
.build
```