Commit 6201b411 authored by HooYoungAhn's avatar HooYoungAhn
Browse files

Update 2.6.6.TrafficStreamingPredict.md

parent 54aea10e
Pipeline #1059 canceled with stages
......@@ -45,6 +45,7 @@ python3 kangnam_producer.py ./input/201601_kangnam_orgarnized_new.csv localhost:
### 학습된 모델 업로드
<a href="https://etrioss.kr/thkimetri/ksb19.03-manual/blob/master/manual1903/2.6.2.TrafficTraining.md">교통속도예측 텐서플로우 모델 학습하기</a> 매뉴얼에서 학습한 후 export 된 모델이 ``hdfs://csle1:9000/user/ksbuser_etri_re_kr/model/kangnam`` 위치에 저장되어 있을 경우, 아래 과정을 생략합니다.
그렇지 않을 경우, Host PC의 /home/csle/ksb-csle/examples/models/kangnam/model 폴더에 있는 텐서플로우 서빙용으로 export 한 모델을 HDFS repository에 웹툴킷을 이용하여 업로드합니다.
model/kangnam 위치에 model 폴더를 업로드 합니다.
......@@ -92,6 +93,7 @@ verbose | false | 디버깅을 위해 로그정보를 보고자할 경우, true
#### Reader
KafkaPipeReader를 선택하고 아래표와 같은 속성을 지정합니다.
field |value | 설명
--|---|--
bootStrapServers | localhost:9092 | Kafka 접속 주소(IP, 포트번호)
......@@ -107,6 +109,7 @@ failOnDataLoss | false |
#### Writer
KafkaPipeWriter를 선택하고 아래표와 같은 속성을 지정합니다.
field |value | 설명
--|---|--
mode | append | 새로 들어온 입력데이터에 대해서 처리함
......@@ -124,12 +127,14 @@ StreamingGenericController 를 선택합니다.
#### Runner
SimpleSparkRunner 를 선택합니다.
field |value | 설명
--|---|--
inJason | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
sparkArgs | | 아래의 표 참고
sparkArgs 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
master | local[\*] | YARN 의 마스터
......@@ -157,6 +162,7 @@ groupby | AVG | 평균 계산
window | | 아래의 표 참고
window 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
key | PRCS_DATE | 윈도우를 사용할 칼럼 이름
......@@ -185,6 +191,7 @@ field |value | 설명
selectedColumn | | 아래의 표 참고
selectedColumn 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
selectedColIndex | 1 | window.start 칼럼 선택 (0번부터 시작함)
......@@ -208,6 +215,7 @@ missing value를 채우고 잡음을 smoothing 하기 위해, 한번 더 카프
#### Reader
KafkaPipeReader를 선택하고 아래표와 같은 속성을 지정합니다.
field |value | 설명
--|---|--
bootStrapServers | localhost:9092 | Kafka 접속 주소(IP, 포트번호)
......@@ -222,6 +230,7 @@ failOnDataLoss | false |
#### Writer
KafkaPipeWriter를 선택하고 아래표와 같은 속성을 지정합니다.
field |value | 설명
--|---|--
mode | append | 새로 들어온 입력데이터에 대해서 처리함
......@@ -239,12 +248,14 @@ StreamingGenericController 를 선택합니다.
#### Runner
SimpleSparkRunner 를 선택합니다.
field |value | 설명
--|---|--
inJason | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
sparkArgs | | 아래의 표 참고
sparkArgs 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
master | local[\*] | YARN 의 마스터
......@@ -272,6 +283,7 @@ groupby | AVG | 평균 계산
window | | 아래의 표 참고
window 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
key | PRCS_DATE | 윈도우를 사용할 칼럼 이름
......@@ -300,6 +312,7 @@ field |value | 설명
selectedColumn | | 아래의 표 참고
selectedColumn 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
selectedColIndex | 1 | window.start 칼럼 선택 (0번부터 시작함)
......@@ -355,13 +368,16 @@ slidingSize | 170 | 윈도우를 sliding 하는 크기
본 예제에서는 5초 주기마다 1530 개의 데이터를 잘라서 operator에게 전달합니다. 입력데이터는 총 170개의 LINK_ID 를 가집니다. 따라서 5분 간격으로 170개의 데이터가 들어오는 셈입니다. 그런데 170개 데이터의 순서는 무작위로 들어옵니다. 또한 스트림 데이터는 계속해서 들어오고 있으므로 첫 시작 데이터가 어디일지 가늠하기 어렵습니다. 따라서 필요한 8 주기 보다 한 주기를 더 가져와서 처리하고 (170 x 9 = 1530 개), 1 주기 씩 슬라이딩 합니다. 아래에서 설명할 GroupByFilterOperator 및 OrderByFilterOperator 를 이용하여 170 x 8 = 1360 개 데이터를 필터링해서 사용합니다.
#### Runner
SimpleSparkRunner 를 선택합니다.
field |value | 설명
--|---|--
inJason | false | false로 설정하는 경우 json 형태의 파라메타를 커맨드라인 파라미터 형태로 변환하여 호출되는 외부 시스템에 전달. True 이면 json 형태의 파라메타 형태 그대로 외부시스템에 전달.
sparkArgs | | 아래의 표 참고
sparkArgs 설정은 다음과 같이 합니다.
field |value | 설명
--|---|--
master | local[\*] | YARN 의 마스터
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment