4.1.1.12.GroupBy_manual.md 1.28 KB
Newer Older
HooYoungAhn's avatar
HooYoungAhn committed
---
html:
  toc: true
  offline: true
export_on_save:
  html: true
---
# GroupBy Operator
---
## Operator 설명
- 주어진 group 조건에 따라 records를 집계하여 DataFrame을 만드는 연산자입니다.
## Operator 파라미터 설명
- keyColName: key column으로 사용할 column 이름 (required)
- valColName: value column으로 사용할 column 이름 (required)
- groupby: 집계 방법. Enum(SUM, COUNT), (required)


## Operator 모듈 테스트 결과

### 입력 데이터
|word|  count|
:--:|:--:|
|  I|       1|
|  am|      1|     
| so|       3|    
| happy|    4|        
| now|      2|        
|  Are|     3|        
| you|      2|       
| happy|    6|     
| now|      8|   
| I|        1|  
| I|        3|
| I|        5|

### 결과 데이터
|word|  count|
:--:|:--:|
|you   | 2  |
|now   | 10  |
|Are   | 3  |
|happy   |10   |
|I   | 10  |
| so   | 3  |
|am   | 1  |

- keyColName('word'),valColName('count'),groupby(SUM)으로 parameter를 설정하였고 코드는 다음과 같다.
```scala
val groupbyInfo = GroupbyInfo.newBuilder()
    .setKeyColName("word")
    .setValColName("count")
    .setGroupby(GroupbyInfo.GroupbyOp.SUM)
    .build()
```
- word와 각 word에 대한 합계를 갖고있는 count column이 존재하는 결과 DataFrame을 확인할 수 있다.