NLP9
-
한국어 챗봇에서의 오류에 강건한 한국어 문장 분류를 위한 어절 단위 임베딩
시작하며 카카오엔터프라이즈 AI Lab(최동현, 박일남, 신명철, 김응균)이 성균관대학교(신동렬)와 함께 쓴 논문 ‘한국어 챗봇에서의 오류에 강건한 한국어 문장 분류를 위한 어절 단위 임베딩’이 제31회 한글 및 한국어정보처리 학술대회에 실렸습니다. 한글날을 맞이해 매년 10월마다 열리는 한글 및 한국어정보처리 학술대회는 전산언어학과 언어학, 인공지능과 관련된 다양한 주제의 연구 논문을 다루고 있습니다. AI Lab은 오류를 포함하는 한국어 문장 분류 시스템의 성능을 높이고자 새로운 통합 어절 임베딩 방식을 제안했습니다. 이 방식은 여러 가지 다른 단위의 임베딩을 하나로 통합하고 데이터에 자동으로 노이즈를 추가하는 방식으로 오류를 포함한 문장 분류 성능을 높입니다. 자체 실험 결과, 기존 시스템과 비교해..
AI Research 2020. 12. 30. -
오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구
시작하며 카카오엔터프라이즈 AI Lab(안애림, 이서진, 최동현, 김응균)이 한국외국어대학교(남지순)와 함께 쓴 논문 ‘오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구’가 제31회 한글 및 한국어정보처리 학술대회에 실렸습니다. 한글날을 맞이해 매년 10월마다 열리는 한글 및 한국어정보처리 학술대회는 전산언어학과 언어학, 인공지능과 관련된 다양한 주제의 연구 논문을 다루고 있습니다. 이번 논문에서 AI Lab은 오픈도메인 자연어 질의문에서 비명시적인 의미자질을 고려한 질문 초점(Question Focus) 기반 질의문 유형 분류 기준을 제시했습니다. 이 기준에 따라 구축된 112,856개 문장의 주석 말뭉치를 학습한 기계학습(CNN) 기반 문장 분류 시스템은 F1-Score 97.72% 성능을 ..
AI Research 2020. 12. 22. -
Stable Style Transformer: Delete and Generate Approach with Encoder-Decoder for Text Style Transfer
시작하며 카카오엔터프라이즈 AI Lab(이주성)이 쓴 논문 ‘Stable Style Transformer: Delete and Generate Approach with Encoder-Decoder for Text Style Transfer(이하 SST)’가 자연어생성국제학술대회(이하 INLG)에 게재 승인됐습니다. 텍스트 스타일 변환(text style transfer)은 입력 문장의 내용(content)은 보전하면서, 문장의 속성(attribute)에 해당하는 값을 바꾸는 태스크를 가리킵니다. 이번 논문에서 AI Lab은 기존 방식대로 비병렬 데이터셋을 활용해 좀 더 자연스러운 문장을 생성하는 새로운 텍스트 스타일 변환 모델인 SST를 제안했습니다. 스타일 변환은 두 단계를 걸쳐 진행됩니다. 첫 번째,..
AI Research 2020. 12. 17. -
Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization
시작하며 카카오(이동엽)와 카카오엔터프라이즈 AI Lab(신명철, 조승우, 고병일, 이다니엘, 김응균), 고려대학교(황태선), 한신대학교(조재춘)가 공동으로 연구한 성과를 정리한 논문 'Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization(이하 RDASS)'이 국제전산언어학술대회(이하 COLING)에 게재 승인됐습니다. COLING은 자연어처리(NLP) 및 언어학을 대표하는 국제 학회로, 올해 제출된 2,319편의 논문 중 644개의 논문이 통과됐습니다. RDASS는 공동 연구팀이 텍스트 요약 모델의 성능을 측정하기 위해 고안한 새로운 평가 척도입니다. 기존의 평가 척도인 ROUGE와 비교 실험을..
AI Research 2020. 12. 3. -
한국어 질의응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기
시작하며 카카오엔터프라이즈 AI Lab(조승우, 최동현, 김응균)이 쓴 논문 ‘한국어 질의응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기’가 제31회 한글 및 한국어정보처리 학술대회에 실렸습니다. 한글날을 맞이해 매년 10월마다 열리는 한글 및 한국어정보처리 학술대회는 전산언어학과 언어학, 인공지능과 관련된 다양한 주제의 연구 논문을 다루고 있습니다. 이번 논문에서 AI Lab은 한국어 질의응답 시스템의 입력 질의 문장을 단답형/서술형으로 분류하는 모델을 제안했습니다. 모델의 분류 성능을 높이고자 육하원칙 정보와 포털 서비스 쿼리에서 추출한 화제성을 가진 주제어와 속성 표현도 함께 입력하는 방식으로 모델의 분류 성능을 높였습니다. 실험 결과, AI Lab이 제안한 추가 정보를 모두 적용한 모델의..
AI Research 2020. 10. 21. -
RYANSQL: Recursively Applying Sketch-based Slot Fillings for Complex Text-to-SQL in Cross-Domain Databases
시작하며 카카오엔터프라이즈 AI Lab(최동현, 신명철, 김응균)과 성균관대학교(신동렬)는 스파이더 챌린지(SPIDER Text-to-SQL Challenge) 성과를 바탕으로 한 공동 연구 논문인 ‘RYANSQL: Recursively Applying Sketch-based Slot Fillings for Complex Text-to-SQL in Cross-Domain Databases’를 아카이브(arXiv)에 공개했습니다. 미국 예일대학교(Yale University)에서 주최한 스파이더 챌린지는 기업이 각종 데이터를 정리 보관할 때 사용하는 데이터베이스가 주어졌을 때 자연어 형태의 사용자 질의 문장을 SQL(Structured Query Language)문으로 변환해주는 NLI2DB(natural..
AI Research 2020. 10. 8.