카카오번역2
-
카카오 i 번역 서비스에 적용된 학습 원리와 성능 개선기
시작하며 카카오엔터프라이즈의 5개 AI 엔진 중 하나인, 번역 엔진은 그 기술과 카카오가 축적한 노하우로 일반 대중에게 카카오 i 번역 서비스를 제공하고 있습니다. 2018년 오픈 당시, 처음 6개 언어로 시작한 번역 서비스는 현재 총 19개 (한국어, 영어, 일본어, 중국어, 베트남어, 인도네시아어, 프랑스어, 독일어, 스페인어, 포르투갈어, 러시아어, 이탈리아어, 네덜란드어, 터키어, 태국어, 말레이시아어, 아랍어, 힌디어, 벵골어)에 이르는 언어 간 번역을 지원합니다. 본 글에서는 카카오 i 번역 서비스의 근간을 이루는 기술 개발의 원리를 공유하고자 합니다. 19개 언어간 번역 학습 원리 학습해야 하는 모델 관점에서 본다면, 지원 언어의 개수를 늘리고 모든 언어 쌍 간의 번역 기능을 제공하는 것은 ..
Tech Log 2020. 4. 24. -
Kakao i 번역이 양질의 대규모 학습 데이터를 확보하는 방법
시작하며 꾸준한 성능 개선과 기능 추가 등으로 현재는 19개 언어간 번역 서비스를 제공하고 있는 카카오 i 번역 서비스는 2017년 10월, 처음 출시되었습니다. 여기에는 신경망 번역 기술이 적용되었고, 당시 내부 블라인드 테스트에 따르면 '경쟁력이 높다'라는 결과가 나왔습니다. 이처럼 우수한 성능을 위해서는 좋은 모델이 전제되어야 하지만, 학습 데이터 역시 매우 중요하다고 할 수 있습니다. 이 글에서는 카카오 i 번역 서비스가 양질의 대규모 학습 데이터(병렬 말뭉치)를 확보하기 위하여 사용한 기술 중 Ableualign 툴을 소개해 보려고 합니다. 데이터 확보와 BLEU 본론에 앞서 우선 Ableualign 툴의 이름에 포함되어 있는 BLEU가 어떤 의미인지 이해할 필요가 있습니다. 이는 원문에 대한 ..
Tech Log 2020. 4. 14.