---
html:
toc: true
offline: true
export_on_save:
html: true
---
# 스트림 예측결과를 지식추론하여 REST 방식으로 서빙하기 (RealtimeIngestToServingWithKbInTwoEngines)
---
온도센서 데이터를 수집한 후 전처리를 수행하고, 기계학습 모델에 의해 예측된 온도 값으로부터 최적의 제어를 추론하여 제어 메세지를 클라이언트로 전달하는 예제를 설명합니다.
## 입력 데이터 준비하기
본 예제에서는 온도 센서 스트림 데이터를 HTTP로 입력 받는 것을 가정합니다. 이를 위해 Jmeter 도구를 활용합니다.
Jmeter 설명 바로가기
### 온도 스트림데이터 생성하기
워크플로우 실행 결과를 확인하기 위해서는 온도데이터를 스트림 형태로 발생시켜야합니다. Jmeter를 활용한 온도 스트림데이터 생성하는 방법은 메뉴얼 하단의 "결과 확인하기" 를 확인해주시기 바랍니다.
##워크플로우 생성하기
워크플로우 편집화면에서 워크플로우를 작성합니다. 본 예제에서는 두 개의 엔진을 생성합니다.
### 첫 번째 엔진 생성하기
####엔진 선택
스트림형태로 제공되는 온도 데이터를 입력받아 실시간 온도 예측을 하는 서빙 엔진으로 전달하기 위해 Streamtostream 엔진을 선택합니다.
#####Reader
HTTP 서버로부터 전달되어 오는 센서데이터를 입력 받기 위해 HttpServerReader를 선택하고 아래표와 같은 속성을 지정합니다.
field |value | 설명
--|---|--
ip | 0.0.0.0 | HTTP 서버의 IP 주소
path | / | HTTP 서버의 URL
port | 53002 | HTTP 서버의 포트 번호
#####Writer
StreamToStream엔진에서 처리된 결과를 다음 엔진에게 Stream 형태로 전달해야 하므로 KafkaWriter를 선택합니다.
field |value | 설명
--|---|--
topic | test3 | 온도 예측 결과를 받아 올때 사용할 Kafka 큐의 이름
zooKeeperConnect | csle1:2181 | zookeeper의 접속주소(IP, 포트번호)
groupId | group3 | Kafka writer topic 그룹 아이디
bootStrapServer | csle1:9092 | Kafka 접속 주소(IP, 포트번호)
#####Controller
Controller 로는 WindowedSparkSessionOrStreamController 를 선택합니다. WindowedSparkSessionOrStreamController 는 스트림으로 입력되는 데이터를 큐에 저장하고, 일정 주기 마다 정해진 윈도우 크기로 잘라서 operator 에게 전달합니다.
field |value | 설명
--|---|--
operationPeriod | 2 | Reader로 부터 데이터를 읽어올 주기 | 53002 | HTTP 서버의 포트번호를 입력합니다.
inputQueSize | 1 | 입력 큐의 크기 | |
selectedColumnName | temperature | Spark dataframe에서 추출할 컬럼의 이름 | |
windowSize | 10 | 큐에서 사용할 윈도우의 크기 | |
#####Runner
SimpleSparkRunner 를 선택합니다.
field |value | 설명
--|---|--
inJason | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드 라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
sparkArgs | master | 아래의 표 참고
sparkArgs 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
master | local[\*] | YARN 의 마스터
executerMemory | 1g | Spark 의 익스큐터 메모리
numExecutors | 4 | 익스큐터 개수.
sparkVersion | 2.3.0 | KSB프레임워크의 Spark 버전
driverMemory | 1g | Spark 드라이버 메모리
#####Operator
첫번째 엔진에서는 센서로부터 입력되는 온도 데이터를 여섯가지 전처리 기법을 적용하여 정제합니다. 본 예제에서 사용한 전처리 기법은 ColumnSelectOperator, MinMaxScalingOperator, TransposeOperator, SparkMLPredictOperator, MinMaxScalingOperator, ColumnSelectOperator 입니다.
- ColumnSelectOperator
field |value | 설명
--|---|--
selectedColumnId | 1 | 선택할 칼럼 ID
- MinMaxScalingOperator
field |value | 설명
--|---|--
selectedColumnId | 0 | 선택할 칼럼 ID
max | 0.5 | 입력되는 값이 scaling 될 때 최대값
min | -0.5 | 입력되는 값이 scaling 될 때 최소값
withMinMaxRange | true | 위에서 설정한 mxx, min값 사용 여부
minRealValue | -20 | 온도 값의 정상 범위로 사용할 실제 최소값
maxRealValue | 50 | 온도 값의 정상 범위로 사용할 실제 최대값
- TransposeOperator
field |value | 설명
--|---|--
selectedColumnName | temperature | transpose 연산을 적용할 컬럼의 이름을 입력합니다.
- SparkMLPredictOperator
field |value | 설명
--|---|--
modelPath | file:///home/csle/ksb-csle/examples/autosparkml/test/automl_test | 학습 모델 경로
clsNameForModel | org.apache.spark.ml.PipelineModel | 학습 모델 형식
- MinMaxScalingOperator
field |value | 설명
--|---|--
selectedColumnId | 13 | 선택할 칼럼 ID
max | 50 | 입력되는 값이 rescaling 될 때 최대값
min | -20 | 입력되는 값이 rescaling 될 때 최소값
withMinMaxRange | true | 위에서 설정한 max, min 값 사용 여부
minRealValue | -0.5 | 온도 값의 정상 범위로 사용할 최소값
maxRealValue | 0.5 | 온도 값의 정상 범위로 사용할 최대값
- ColumnSelectOperator
field |value | 설명
--|---|--
selectedColumnId | 13 | 선택할 칼럼 ID
### 두 번째 엔진 생성하기
####엔진 선택
스트림 형태로 전달되는 온도 예측값을 온디맨드 서빙을 하기 위해 OnDemandStreamServing 엔진을 선택합니다. (KSB프레임워크에서는 도커 컨테이너 내부의 지식베이스(KB)가 실행되고 있습니다.)
#####Reader
첫번째 엔진에서 입력되는 실시간 온도 예측값을 입력 받기 위해 KafkaOnDemandReader 를 선택합니다.
field |value | 설명
--|---|--
topic | test3 | 실시간 온도 예측값을 받아올때 사용할 Kafka 큐의 이름
zooKeeperConnect | csle1:2181 | zookeeper의 접속주소(IP, 포트번호)
groupId | group3 | Kafka writer topic 그룹 아이디
bootStrapServer | csle1:9092 | Kafka 접속 주소(IP, 포트번호)
#####Writer
이 엔진에서는 Writer를 사용하지 않습니다.
#####Controller
Controller 로는 servingWithkbController를 선택합니다. servingWithkbController는 추가적인 속성을 설정하지 않습니다.
#####Runner
REST 방식으로 엔진을 실행 하기위해서는 ServingRunner를 선택합니다.
field |value | 설명
--|---|-- |
port | 18080 | 최적의 제어값을 서빙할 포트번호 |
host | 0.0.0.0 | 최적의 제어값을 서빙할 IP |
#####Operator
두 번째 엔진에서는 ControlContextQueryOperator를 사용합니다.
field |value | 설명
--|---|-- |
controlQuery | 18080 | 세부 설정 아래 참고 |
URI | recommendDeviceControl | 최적의 제어값을 서빙할 URI |
ControlQuery 의 세부 설정은 아래와 같이 합니다.
field |value | 설명
--|---|-- |
resourceID | temperature | 센서의 리소스명 |
thingId | a1234 | 센서의 아이디 |
values(name) | temperature | 질의 속성 |
|values(value) | ? | 예측된 센서 온도가 계속 변경되므로 물음표를 입력
|values(time) | ? | 예측된 센서 데이터값이 입력되는 시간이 계속 변경되므로 물음표를 입력 |
![워크플로우 완성 화면](./images/2.5.9_01.png)
ksbuser@etri.re.kr 계정으로 접속하면 예제 워크플로우가 만들어져있습니다. 불러오기해서도 돌려볼 수 있습니다.
##워크플로우 실행 및 모니터링하기
### 워크플로우 실행하기
위에서 작성한 워크플로우를 실행하기 위해서는 워크플로우 편집기 상단의 실행 버튼을 누릅니다. 이 때, StreamToStream 엔진과 OnDemandStreamServing 엔진은 배치형태로 실행되지 않는 엔진들이므로 Batch 체크 박스는 해제하고 워크플로우를 제출해야합니다.
![Batch체크 해제로 변경할것](./images/2.5.9_02.png)
#### 서빙 URL 확인하기
Dashboard 탭으로 이동하면, 위에서 실행한 OnDemandStreamServing엔진이 서비스 하고있는 URL을 확인할 수 있습니다.
![서빙 URL 확인](./images/2.5.9_03.png)
### 워크플로우 모니터링 하기
#### 워크플로우 상태 확인
KSB 웹툴킷 상단 메뉴의 Monitoring 탭을 클릭하면, Workflow 탭이 선택되어 있습니다. Workflow 탭에는 위에서 실행한 두 엔진의 동작 상태 (status) 가 실행 중(Inprogress)인 것을 확인 할 수 있습니다.
![워크플로우 동작 상태 확인](./images/2.5.9_04.png)
#### 워크플로우 로그 보기
WorkFlow History 탭을 선택하면, KSB프레임워크에서 워크플로우가 동작하며 발생시킨 로그 정보를 확인 할 수 있습니다.
![워크플로우 히스토리](./images/2.5.9_05.png)
![워크플로우 동작 로그](./images/2.5.9_06.png)
##결과 확인하기
#### 온도 스트림데이터 생성하기
워크플로우 실행 결과를 확인하기 위해서는 온도데이터를 스트림 형태로 발생시켜야 합니다. 이를 위해 위에서 설명한 Jmeter 도구를 활용합니다.
![Jmeter로 온도 스트림데이터 입력하기](./images/2.5.9_07.png)
#### 서빙 기능 이용해 예측결과 받아오기
실시간으로 예측된 온도값을 받아오기 위해서는 예측 모델이 서빙 되고 있는 서버에 접근하여 예측결과를 받아와야합니다. REST 형태로 실시간 서빙되고 있는 모델에 접근하기 위해 Postman 을 이용합니다.
서빙 중인 모델의 URL 은 "서빙 URL 확인하기" 에서 확인할 수 있습니다.
```
Method: GET
URL: http://localhost:18080/query
```
Postman 설명 바로가기
![Jmeter로 온도 스트림데이터 입력하기](./images/2.5.9_08.png)
## 워크플로우 종료하기
KSB 웹툴킷 상단 "Monitoring" 메뉴의 "Workflow" 탭에서 실행 중인 RealtimeIngestToServingWithKbInTwoEngines 워크플로우를 종료(◼)할 수 있습니다.