Commit 1830da19 authored by HooYoungAhn's avatar HooYoungAhn
Browse files
parents 2799fc83 9ff1a3e9
Pipeline #1125 canceled with stages
......@@ -13,7 +13,7 @@ export_on_save:
- Bin1: 0, 4, 12 [-,14]
Bin2: 16, 16, 18 [14,21]
Bin3: 24, 26, 28 [21,+]
<img src="/images/4.1.1.3.Eqaul_depth.png">
<img src="./images/4.1.1.3.Eqaul_depth.png">
## Operator 파라미터 설명
- selectedColumnId: Equal-depth-binning을 수행 할 column ID (repeated)
- numberOfBins: 생성할 Bins의 개수 (required)
......
......@@ -10,11 +10,11 @@ export_on_save:
## Operator 설명
- n개의 data를 k개의 cluster로 나누는 것을 목적으로 하고 있다.
- 입력 데이터 집합의 각 데이터들과 k개의 cluster 중심점과의 거리를 각각 구하고 각 data는 가장 유사도가 높은 중심점에 각 데이터를 할당하게 된다.<br>
<img src="/images/4.1.1.4.kmeans_1.png" width="300">
<img src="./images/4.1.1.4.kmeans_1.png" width="300">
1. 입력 데이터 집합에서 K(3)개의 데이터를 임의로 추출하고 이 데이터를 각 cluster의 중심으로 설정한다. 입력 데이터 집합의 각 데이터 들과 k개의 cluster 중심점과의 거리를 각각 구하고, 가장 유사도가 높은 중심점에 각 데이터를 할당하게 된다.
<img src="/images/4.1.1.4.kmeans_2.png" width="300">
<img src="./images/4.1.1.4.kmeans_2.png" width="300">
2. 모두 할당하였으면 cluster의 중심점을 다시 계산한다.
<img src="/images/4.1.1.4.kmeans_3.png" width="300">
<img src="./images/4.1.1.4.kmeans_3.png" width="300">
3. cluster가 바뀌지 않을 때까지 반복적으로 거리계산 및 cluster 할당 작업을 수행을 하게 된다.
## Operator 파라미터 설명
- k_value: cluster의 개수 (required)
......
......@@ -13,7 +13,7 @@ export_on_save:
- Bin1: 0, 4 [-,10]
Bin2: 12, 16, 16, 18 [10,20]
Bin3: 24, 26, 28 [20,+]
<img src="/images/4.1.1.6.Eqaul_width.png">
<img src="./images/4.1.1.6.Eqaul_width.png">
## Operator 파라미터 설명
- selectedColumnId: Equal-width-binning을 수행 할 column ID (repeated)
- numberOfBins: 생성 할 bins의 개수 (required)
......
......@@ -11,7 +11,7 @@ export_on_save:
- 종속 변수 Y와 하나 이상의 독립 변수 X와의 선형 상관 관계를 모델링하는 방법이다.
- 선형 회귀는 주어진 데이터를 대표하는 하나의 직선을 찾는 것인데 이 선을 함수로 표현하면 y=ax+b가 된다. a를 가중치(weight)라고 말한다. 알고리즘은 Spark ml의 LinearRegression 알고리즘을 사용하여 구현하였다.
<img src="/images/4.1.1.7.Linear.png" width ="300">
<img src="./images/4.1.1.7.Linear.png" width ="300">
## Operator 파라미터 설명
......
......@@ -10,20 +10,20 @@ export_on_save:
## Operator 설명
- 계층적 트리 모양을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 그룹과 통합하여 군집화를 수행하는 알고리즘이다.<br>
1. 먼저 거리가 가장 가까운 것을 하나의 클러스터로 묶게 된다.
<img src="../images/4.1.1.8.Agglomerative_1.png">
<img src="./images/4.1.1.8.Agglomerative_1.png">
2. 그 다음 또 다시 가장 가까운 것을 묶게 된다.
<img src="/images/4.1.1.8.Agglomerative_2.png">
<img src="./images/4.1.1.8.Agglomerative_2.png">
3. 이런 식으로 모든 데이터가 하나로 묶을 때까지 반복 수행을 하게 된다.
<img src="../images/4.1.1.8.Agglomerative_3.png">
<img src="./images/4.1.1.8.Agglomerative_3.png">
- 만약 2개의 클러스터로 나누고 싶다면 아래와 같이 할당하면 된다.
<img src="../images/4.1.1.8.Agglomerative_4.png">
<img src="./images/4.1.1.8.Agglomerative_4.png">
- 거리계산 할 때의 사용된 방법에는 Single link, Complete link, Average link 방식을 사용하게 된다.<br>
Single link 방식은 클러스터 간의 최소 거리로 측정하게 된다.
<img src="../images/4.1.1.8.Agglomerative_5.png">
<img src="./images/4.1.1.8.Agglomerative_5.png">
Complete link 방식은 클러스터 간의 최대 거리로 측정하게 된다.
<img src="../images/4.1.1.8.Agglomerative_6.png">
<img src="./images/4.1.1.8.Agglomerative_6.png">
Average link 방식은 모든 점과의 거리를 평균 내 측정하게 된다.
<img src="../images/4.1.1.8.Agglomerative_7.png">
<img src="./images/4.1.1.8.Agglomerative_7.png">
## Operator 파라미터 설명
- numberOfClusters: cluster의 개수 (required)
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment