Update 2.6.6.TrafficStreamingPredict.md

6201b411 · HooYoungAhn · 54aea10e · 6201b411
Commit 6201b411 authored Jun 11, 2020 by HooYoungAhn
--- a/manual1903/2.6.6.TrafficStreamingPredict.md
+++ b/manual1903/2.6.6.TrafficStreamingPredict.md
@@ -45,6 +45,7 @@ python3 kangnam_producer.py ./input/201601_kangnam_orgarnized_new.csv localhost:


 ### 학습된 모델 업로드
+
 <a href="https://etrioss.kr/thkimetri/ksb19.03-manual/blob/master/manual1903/2.6.2.TrafficTraining.md">교통속도예측 텐서플로우 모델 학습하기</a> 매뉴얼에서 학습한 후 export 된 모델이 ``hdfs://csle1:9000/user/ksbuser_etri_re_kr/model/kangnam`` 위치에 저장되어 있을 경우, 아래 과정을 생략합니다.
 그렇지 않을 경우, Host PC의 /home/csle/ksb-csle/examples/models/kangnam/model 폴더에 있는 텐서플로우 서빙용으로 export 한 모델을 HDFS repository에 웹툴킷을 이용하여 업로드합니다.
 model/kangnam 위치에 model 폴더를 업로드 합니다.
@@ -92,6 +93,7 @@ verbose  | false | 디버깅을 위해 로그정보를 보고자할 경우, true

 #### Reader
 KafkaPipeReader를 선택하고 아래표와 같은 속성을 지정합니다.
+
 field  |value   | 설명
 --|---|--
 bootStrapServers  | localhost:9092 |  Kafka 접속 주소(IP, 포트번호)
@@ -107,6 +109,7 @@ failOnDataLoss  | false  |

 #### Writer
 KafkaPipeWriter를 선택하고 아래표와 같은 속성을 지정합니다.
+
 field  |value   | 설명
 --|---|--
 mode | append | 새로 들어온 입력데이터에 대해서 처리함
@@ -124,12 +127,14 @@ StreamingGenericController 를 선택합니다.

 #### Runner
 SimpleSparkRunner 를 선택합니다.
+
 field  |value   | 설명
 --|---|--
 inJason  | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
 sparkArgs  | | 아래의 표 참고

 sparkArgs 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 master | local[\*] | YARN 의 마스터
@@ -157,6 +162,7 @@ groupby  | AVG  |  평균 계산
 window  |   |  아래의 표 참고

 window 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 key  | PRCS_DATE  | 윈도우를 사용할 칼럼 이름  
@@ -185,6 +191,7 @@ field  |value   | 설명
 selectedColumn | | 아래의 표 참고

 selectedColumn 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 selectedColIndex | 1 | window.start 칼럼 선택 (0번부터 시작함)
@@ -208,6 +215,7 @@ missing value를 채우고 잡음을 smoothing 하기 위해, 한번 더 카프

 #### Reader
 KafkaPipeReader를 선택하고 아래표와 같은 속성을 지정합니다.
+
 field  |value   | 설명
 --|---|--
 bootStrapServers  | localhost:9092 |  Kafka 접속 주소(IP, 포트번호)
@@ -222,6 +230,7 @@ failOnDataLoss  | false  |

 #### Writer
 KafkaPipeWriter를 선택하고 아래표와 같은 속성을 지정합니다.
+
 field  |value   | 설명
 --|---|--
 mode | append | 새로 들어온 입력데이터에 대해서 처리함
@@ -239,12 +248,14 @@ StreamingGenericController 를 선택합니다.

 #### Runner
 SimpleSparkRunner 를 선택합니다.
+
 field  |value   | 설명
 --|---|--
 inJason  | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
 sparkArgs  | | 아래의 표 참고

 sparkArgs 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 master | local[\*] | YARN 의 마스터
@@ -272,6 +283,7 @@ groupby  | AVG  |  평균 계산
 window  |   |  아래의 표 참고

 window 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 key  | PRCS_DATE  | 윈도우를 사용할 칼럼 이름  
@@ -300,6 +312,7 @@ field  |value   | 설명
 selectedColumn | | 아래의 표 참고

 selectedColumn 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 selectedColIndex | 1 | window.start 칼럼 선택 (0번부터 시작함)
@@ -355,13 +368,16 @@ slidingSize  |  170 | 윈도우를 sliding 하는 크기
 본 예제에서는 5초 주기마다 1530 개의 데이터를 잘라서 operator에게 전달합니다. 입력데이터는 총 170개의 LINK_ID 를 가집니다. 따라서 5분 간격으로 170개의 데이터가 들어오는 셈입니다. 그런데 170개 데이터의 순서는 무작위로 들어옵니다. 또한 스트림 데이터는 계속해서 들어오고 있으므로 첫 시작 데이터가 어디일지 가늠하기 어렵습니다. 따라서 필요한 8 주기 보다 한 주기를 더 가져와서 처리하고 (170 x 9 = 1530 개), 1 주기 씩 슬라이딩 합니다. 아래에서 설명할 GroupByFilterOperator 및 OrderByFilterOperator 를 이용하여 170 x 8 = 1360 개 데이터를 필터링해서 사용합니다.

 #### Runner
+
 SimpleSparkRunner 를 선택합니다.
+
 field  |value   | 설명
 --|---|--
 inJason  | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
 sparkArgs  | | 아래의 표 참고

 sparkArgs 설정은 다음과 같이 합니다.
+
 field  |value   | 설명
 --|---|--
 master | local[\*] | YARN 의 마스터