[헤럴드경제=정태일 기자]LG CNS가 5일 서울 강서구 마곡 LG사이언스파크에서 AI(인공지능) 커뮤니티 행사 ‘AI 테크 톡 포 NLU(자연어이해)’를 개최하고, AI의 자연어 학습용 한국어 표준 데이터 10만개를 무료로 개방한다고 밝혔다.
LG CNS가 개방한 데이터 ‘코쿼드(한국어 질의응답 데이터셋) 2.0’은 인공지능 기반 스피커, 챗봇 개발에 사용된다.
해외의 경우 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준 데이터가 AI개발에 활용된 반면, 국내는 한국어 표준 데이터가 없어 그동안 영문을 번역하거나 자체적으로 데이터를 마련해야 했다고 LG CNS는 설명했다.
이에 LG CNS는 지난해 12월 AI 학습용 한국어 표준데이터 7만개가 탑재된 ‘코쿼드 1.0’을 제작했고, 이번에 10만개로 확대해 공개했다.
데이터 규모 확대와 함께 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 것도 특징이다.
또 코쿼드 2.0 기반 AI는 표나 목록 형태에 담긴 정보도 읽어 답변할 수 있도록 표준 데이터 범위도 넓어졌다.
이날 행사에는 한국전자통신연구원(ETRI), 서울대, 카이스트 등 300여명의 전문가들이 참석해 언어 AI 연구 성과 및 최신 기술을 공유했다.
현신균 LG CNS CTO(최고기술책임자)는 “AI 언어 개발 분야에서 자사 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 개방형 AI 생태계 조성에 기여할 것”라고 말했다.
killpass@heraldcorp.com