1.
Resnet18 - Mel Spectrogram
•
label 6 테스트
Train Accuracy | 98.55 % |
Test Accuracy | 31.18% |
F1 score | 0.172 |
Precision | 12.20% |
Recall | 31.19% |
2.
Densenet - Not Pretrained
•
label 6 테스트
◦
Mel Spectrogram 사용 Test
Train Accuracy | 98.34% |
Test Accuracy | 30.35% |
F1 score | 0.163 |
Precision | 28.29% |
Recall | 30.37% |
3.
Densenet - Pretrained - Finetuned
•
Mel Spectrogram 사용 Test
◦
label 6 테스트
Train Accuracy | 98.73 % |
Test Accuracy | 58.09% |
F1 score | 0.549 |
Precision | 59.51% |
Recall | 58.12% |
•
Early Fusion(STFT, MelSpectrogram, MFCC)
◦
label 6 테스트
Train Accuracy | 98.92 % |
Test Accuracy | 59.27% |
F1 score | 0.551 |
Precision | 59.80% |
Recall | 59.30% |
◦
단일 스펙트로그램 피쳐만을 사용했을 때보다 Early Fusion을 사용하였을 때, 1.2% 정도의 미세한 향상을 보임
◦
Label 2 모델이 필요한 이유
▪
AWS Transcribe는 시간이 걸리는 작업이다.
그렇기 때문에 오디오 피쳐 기준 응급 음성에 한해서만 텍스트를 추출할 것이다.
Mel Spectrogram 사용 Test
•
label 2 테스트
Train Accuracy | 99.08 % |
Test Accuracy | 90.68% |
F1 score | 0.91 |
Precision | 92.57% |
Recall | 90.73% |
응급과 정상은 제대로 분류하지만 음성의 스펙트럼들 정보만으로는 상세 범죄 분류가 되지 않는다.
라벨을 6개 분류하는 음성 피쳐만을 사용하는 모델은 훈련 데이터에 과적합 되어 있음을 알 수 있다.
KoBERT 실험
•
Label 6
•
parameter
◦
max_len = 60
◦
batch_size = 64
◦
warmup_ratio = 0.1
◦
epoch = 12
◦
learning_rate = 5e-5
•
Exterior과 Interior은 엄밀하게는 대사가 없는 것이 아닙니다.
소음 때문에 AWS Transcribe로 추출 시에 어떠한 텍스트가 추출되어서 분류가 이상하게 될 가능성이 농후합니다.
따라서 KoBERT의 실험은 완벽하지 않을 수 있습니다.
Train Accuracy | 93.69 % |
Test Accuracy | 74.72% |
F1 score | 0.699 |
Precision | 84.54% |
Recall | 74.72% |
Late Fusion(Audio feature - text feature) with softmax Test
앞서 취득한 2개의 피쳐인 Densenet Feature (,6)과 KoBERT Feature (,6) 를 Mean Concatenate하여서 SoftMax를 이용해서 Late Fusion을 수행하게 됩니다.
•
Label 6
Test Accuracy | 89.15% |
F1 score | 0.89% |
Precision | 91.34% |
Recall | 89.19% |
상세 범죄 분류의 일반화 성능을 Densenet 기준보다 약 30% 끌어올렸다.
라벨 2개 테스트 - 자체 구축 데이터 (위급 변조)
•
Decision late Fusion (Text, Audio feature) - Mean softmax
◦
label 2 테스트
Test Accuracy | 77.57% |
F1 score | 0.77 |
Precision | 84.62% |
Recall | 78.30% |