Commit f96a7a23 authored by HooYoungAhn's avatar HooYoungAhn
Browse files

Update 2.5.3.DeidentificationExample.md

parent de8ca704
Pipeline #1037 canceled with stages
......@@ -73,6 +73,7 @@ operationPeriod | 0 | 컨트롤러 실행 주기를 입력합니다. 배치
#### Runner
SimpleSparkRunner를 선택합니다.
field |value | 설명
--|---|--
master | local [ * ] | Spark local 모드를 입력합니다.
......@@ -91,6 +92,7 @@ sparkVersion | 2.3.0 | Spark 버전 정보를 입력합니다.
비식별 처리 관련 모든 Operator에는 필수적으로 1) 처리할 컬럼에 대한 속성정보와, 2) 비식별 처리 후 적정성을 검증할 방법에 대한 정보를 포함하게 됩니다.
먼저, 데이터 컬럼에 대한 속성정보는 Operator의 fieldInfo를 클릭하여 설정합니다. fieldInfo는 아래와 같은 형식으로 정의되며, 여기서는 총계처리를 예제로 들어 설명합니다.
field |value | 설명
--|---|--
key | 1 | 총계처리 기능을 적용할 칼럼 ID를 입력합니다.
......@@ -104,6 +106,7 @@ filePath | 입력없음 | 컬럼 내 데이터 hierarchy를 파일로 읽어
컬럼의 hierarchy는 데이터를 어떤 형식으로 일반화할건지 나타내는 것으로, 일반화 기법 적용시 필수적으로 정의되어야 합니다. 가령, '55132'라는 zip code 데이터가 주어진 경우 한번 일반화를 수행하면 '5514*'로 변경될 수 있습니다. 일반화 후에도 적정성 평가를 통과 못하면 추가적으로 일반화를 더 수행하여 '551**''와 같은 데이터로 변경을 하게 됩니다. 일반화 단계에 따른 데이터의 변화를 일반화 단계 정보라 하며, 이 정보는 사용자가 직접 파일 형식으로 저장하여 그 파일로부터 읽어들이게 됩니다. 또는 autoConfigured true 설정을 통해 자동적으로 일반화 단계 정보를 구성할 수도 있습니다 (자동 구성시, 데이터의 syntatic 정보는 고려되지 않은 채, 숫자 값의 크기 또는 문자열의 길이를 기반으로 단순히 일반화 단계가 정의됩니다)
데이터 처리자는 비식별 처리 후 개인정보 및 민감정보 제거여부에 대해 적정성 검증을 수행해야 합니다 (6월 발간된 비식별 조치가이드라인에서는 k-익명성 기반 적정성 검증만이라도 필수적으로 수행하길 권고하고 있습니다). 적정성 검증에 대한 정보는 다음과 같은 형식으로 정의됩니다. Operator 내 check라는 버튼을 클릭한 후 아래와 같이 설정합니다.
field |value | 설명
--|---|--
measureLoss | AECS | 원본 데이터 대비 비식별 처리된 데이터의 데이터 손실량을 측정합니다.
......@@ -149,6 +152,7 @@ fieldInfo | 아래의 표 참고 | 컬럼의 속성을 정의합니다.
check | 위의 공통 설정 | 적정성 평가를 어떻게 수행할지 정의합니다.
본 예제에서는 데이터를 랜덤 문자열로 변경합니다. 랜덤 문자열을 생성을 위해, randInfo 클릭 후 다음과 같이 설정합니다.
field |value | 설명
--|---|--
randMethod | MIXED | 숫자, 문자를 섞어서 랜덤문자를 생성합니다.
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment