///
Search

발화 데이터셋

Chatbot_data_for_Korean v1.0 → 이게 더 맞을 것 같다..!
1.
챗봇 트레이닝용 문답 페어 11,876개
2.
일상다반사 0, 이별(부정) 1, 사랑(긍정) 2로 레이블링
주제별 텍스트 일상 대화 데이터
BERT 언어 모델을 활용한 한국어 대화 기반 폭력 및 비폭력 상황 인식
자연어처리(Natural Language Processing, NLP) 연구분야 중 하나인 혐오 표현(hate speech) 인지는 해외에서 필요성과 함께 활발하게 연구가 진행되고 있다. 하지만, 혐오 표현 인지 연구는 온라인상에서의 문제에 국한되어 있기 때문에 최근 문제가 점점 심각해지고 있는 학교 폭력, 직장 내 괴롭힘과 같은 오프라인상에서의 문제를 해결하기 위해서는 적합하지 않다. 또한, 한국어 대화 기반 폭력 상황을 인식하는 연구는 매우 미진한 상황이다. 본 연구에서 학교 폭력, 직장 내 괴롭힘과 같은 오프라인상에서의 문제를 해결하기 위해 4종의 폭력 상황과 비폭력 상황으로 구성된 21,594개에 해당하는 데이터베이스를 구축하였으며, 한국어 대화 기반 폭력 및 비폭력 상황 인식을 위한 사전 학습된 한국어 BERT 언어 모델과 딥러닝(Deep Learning) 기반의 4가지 분류 모델로 구성된 딥러닝 신경망 모델을 제안한다. 제안하는 딥러닝 신경망 모델은 자체 구축한 데이터베이스에서 1,000개의 데이터를 임의로 추출한 테스트 데이터셋을 활용한 검증을 통해 4가지의 폭력 상황 및 비폭력 상황 분류의 우수한 성능을 보임을 확인하였다.
언어 모델 평가
언어 증강
ktextaug
jucho2725