- feature와 label간의 독립성을 검정해 볼 수 있다.
- label과 feature의 관계가 독립이라면 해당 feature는 모델링에 적합하지 않다.
- labelName: 라벨 이름 (repeated)
- numTopFeatures: 상위 몇개의 feature를 선택할 것인지 (required)
label |
a1 |
a2 |
a3 |
a4 |
1.0 |
0.0 |
0.0 |
18.0 |
1.0 |
0.0 |
0.0 |
1.0 |
12.0 |
0.0 |
0.0 |
1.0 |
0.0 |
15.0 |
0.1 |
index |
a3 |
a4 |
1 |
18.0 |
1.0 |
2 |
12.0 |
0.0 |
3 |
15.0 |
0.1 |
- feature들 간의 관계가 독립이라면 모델링에 적합한 것이지만 feature와 label의 관계가 독립이라면 모델링에 적합하지 않은 것이다.
- 위의 예제에서는 label과 feature(a1,a2,a3,a4)들의 관계가 독립이라면 해당 feature는 모델링에 적합하지 않은 것이다.
- NumTopFeatures를 2로 설정했다. Chi Square Select Operator의 결과로 상위 2개 즉, 적합한 feature 2개가 a3, a4 임을 알 수 있다.
- parameter는 다음과 같이 설정하였다.
val chiSquareSelectorInfo =
ChiSquareSelectorInfo.newBuilder()
.setLabelName("label")
.setNumTopFeatures(2)
.build