2024-04-20 06:10 (토)
한국말 더 잘 알아듣는 AI기술 개발
한국말 더 잘 알아듣는 AI기술 개발
  • 곽용석 이코노텔링기자
  • felix3329@naver.com
  • 승인 2019.06.11 12:42
  • 댓글 0
이 기사를 공유합니다

한국어 언어모델 '코버트'만들어 온라인에 공개

한국말을 더 잘 알아듣는 인공지능(AI) 서비스 기술이 개발됐다. 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 '코버트'(KorBERT)를 만들어 온라인(aiopen.aihub.or.kr)에 공개했다고 11일 밝혔다.

한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 '코버트'(KorBERT)를 만들어 온라인(aiopen.aihub.or.kr)에 공개했다. 자료=한국전자통신연구원.
한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 '코버트'(KorBERT)를 만들어 온라인(aiopen.aihub.or.kr)에 공개했다. 자료=한국전자통신연구원.

ETRI에서 연구한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 형태와 교착어 특성까지 반영해 만든 버전이다. 언어처리를 위한 딥러닝을 위해서는 어절을 숫자로 표현해야 한다. 지금까지는 주로 구글의 다국어 언어모델 '버트'(BERT)를 활용했다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.

구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 구현했다. ETRI 연구진은 여기에 지난 10년간의 신문기사와 백과사전 정보를 얹었다. 45억개의 형태소를 더 학습한 것으로 이를 통해 구글보다 많은 한국어 데이터를 기반으로 하는 언어모델을 내놨다.

기술 고도화를 위해 한국어의 교착어 특성까지 반영했다. 첨가어라고도 하는 교착어는 체언 앞뒤에 다양한 조사를 붙일 수 있는 언어 유형이다. 연구진은 한국어 의미 최소 단위인 형태소까지 고려해 모델을 완성했다. 구체적으로 전처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화한 학습 파라미터, 방대한 데이터 기반 등이 구글과 차별성 있는 특징이라고 연구진은 설명했다.

실제 성능을 확인한 결과 구글이 배포한 한국어 모델보다 4.5% 정도 우수했다. 단락 순위화(Passage Ranking) 기준에서는 7.4%가 높았다. 코버트는 대표적인 딥러닝 프레임워크 파이토치(PyTorch)와 텐서플로(Tensorflow) 환경 모두에서 쓸 수 있다.

ETRI 김현기 박사는 "언어 분석, 지식 추론, 질의응답 등 다양한 한국어 딥러닝 기술의 고도화를 기대할 수 있다"고 설명했다. 이번 성과의 근간에는 과학기술정보통신부와 정보통신기획평가원(IITP) 혁신성장 동력 프로젝트인 엑소브레인(Exobrain) 사업이 있다고 ETRI 측은 덧붙였다. '내 몸 밖의 인공두뇌'라는 뜻을 담은 엑소브레인은 자연어 이해를 바탕으로 지식을 학습해 사람과 질의응답할 수 있는 인공지능 기술이다. 2016년 EBS 장학퀴즈에서는 인간 퀴즈왕 4명과 대결을 벌여 압도적으로 우승했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 서울특별시 서초구 효령로 229번지 (서울빌딩)
  • 대표전화 : 02-501-6388
  • 청소년보호책임자 : 장재열
  • 발행처 법인명 : 한국社史전략연구소
  • 제호 : 이코노텔링(econotelling)
  • 등록번호 : 서울 아 05334
  • 등록일 : 2018-07-31
  • 발행·편집인 : 김승희
  • 발행일 : 2018-10-15
  • 이코노텔링(econotelling) 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 이코노텔링(econotelling). All rights reserved. mail to yunheelife2@naver.com
  • 「열린보도원칙」 당 매체는 독자와 취재원 등 뉴스이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알려드립니다. 고충처리인: 장재열 02-501-6388 kpb11@hanmail.net
ND소프트