Stratified Sampling Operator


Operator 설명

     

slideshare,2018년8월20일,https://www.slideshare.net/Newsjelly/1-50965379

Operator 파라미터 설명

작동순서

  1. 입력 DataFrame의 유효성 검사를 진행한다. (fractionList, selected Columns)
  2. Spark RDD의 keyBy로 분류 한 후 sampleByKey 내장 함수를 실행한다.
  3. 출력 DataFrame을 생성한다.

Operator 모듈 테스트 결과

입력 데이터

data1 data2
1 a
1 b
2 c
2 d
2 e
3 f

결과 데이터

data1 data2
1 b
2 c
2 e
val sampleStratifiedInfo = SampleStratifiedInfo.newBuilder()
  .setSelectedColumnId(0)
  .addFractions(
    FractionFieldEntry.newBuilder()
      .setKey("1")
      .setValue(0.1)
      .build())
   .addFractions(
    FractionFieldEntry.newBuilder()
      .setKey("2")
      .setValue(0.6)
      .build())
  .setWithReplacement(false)
  .setSeed(7)
  .build