///
Search

상세 분류 실험 결과 보관소

1.
Resnet18 - Mel Spectrogram
label 6 테스트
Train Accuracy
98.55 %
Test Accuracy
31.18%
F1 score
0.172
Precision
12.20%
Recall
31.19%
2.
Densenet - Not Pretrained
label 6 테스트
Mel Spectrogram 사용 Test
Train Accuracy
98.34%
Test Accuracy
30.35%
F1 score
0.163
Precision
28.29%
Recall
30.37%
3.
Densenet - Pretrained - Finetuned
Mel Spectrogram 사용 Test
label 6 테스트
Train Accuracy
98.73 %
Test Accuracy
58.09%
F1 score
0.549
Precision
59.51%
Recall
58.12%
Early Fusion(STFT, MelSpectrogram, MFCC)
label 6 테스트
Train Accuracy
98.92 %
Test Accuracy
59.27%
F1 score
0.551
Precision
59.80%
Recall
59.30%
단일 스펙트로그램 피쳐만을 사용했을 때보다 Early Fusion을 사용하였을 때, 1.2% 정도의 미세한 향상을 보임
Label 2 모델이 필요한 이유
AWS Transcribe는 시간이 걸리는 작업이다. 그렇기 때문에 오디오 피쳐 기준 응급 음성에 한해서만 텍스트를 추출할 것이다.
Mel Spectrogram 사용 Test
label 2 테스트
Train Accuracy
99.08 %
Test Accuracy
90.68%
F1 score
0.91
Precision
92.57%
Recall
90.73%
응급과 정상은 제대로 분류하지만 음성의 스펙트럼들 정보만으로는 상세 범죄 분류가 되지 않는다.
라벨을 6개 분류하는 음성 피쳐만을 사용하는 모델은 훈련 데이터에 과적합 되어 있음을 알 수 있다.

KoBERT 실험

Label 6
parameter
max_len = 60
batch_size = 64
warmup_ratio = 0.1
epoch = 12
learning_rate = 5e-5
Exterior과 Interior은 엄밀하게는 대사가 없는 것이 아닙니다. 소음 때문에 AWS Transcribe로 추출 시에 어떠한 텍스트가 추출되어서 분류가 이상하게 될 가능성이 농후합니다. 따라서 KoBERT의 실험은 완벽하지 않을 수 있습니다.
Train Accuracy
93.69 %
Test Accuracy
74.72%
F1 score
0.699
Precision
84.54%
Recall
74.72%

Late Fusion(Audio feature - text feature) with softmax Test

앞서 취득한 2개의 피쳐인 Densenet Feature (,6)과 KoBERT Feature (,6) 를 Mean Concatenate하여서 SoftMax를 이용해서 Late Fusion을 수행하게 됩니다.
LateFusion(DensenetFeature,KoBERTFeature)=SoftMax(12[DensenetFeature(6)DensenetFeature(6)+KoBERTFeature(6)KoBERTFeature(6)]) \text{LateFusion}(\text{DensenetFeature}, \text{KoBERTFeature}) = \text{SoftMax} \left( \frac{1}{2} \left[ \frac{\text{DensenetFeature}(6)}{||\text{DensenetFeature}(6)||} + \frac{\text{KoBERTFeature}(6)}{||\text{KoBERTFeature}(6)||} \right] \right)
Softmax(xi)=exij=1nexjSoftmax(x_i) = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}
Label 6
Test Accuracy
89.15%
F1 score
0.89%
Precision
91.34%
Recall
89.19%
상세 범죄 분류의 일반화 성능을 Densenet 기준보다 약 30% 끌어올렸다.

라벨 2개 테스트 - 자체 구축 데이터 (위급 변조)

Decision late Fusion (Text, Audio feature) - Mean softmax
label 2 테스트
Test Accuracy
77.57%
F1 score
0.77
Precision
84.62%
Recall
78.30%