심심이, NIA와 협약 체결 통해 ‘한국어 블렌더봇 데이터’ 구축사업 수행

[고카넷, 글=남태화 기자] 심심이 주식회사(대표 최정회)가 과학기술정보통신부(과기정통부)가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2022년 인공지능 학습 데이터 구축사업’ 협약을 체결, 정부 주관 데이터셋 구축 사업에 본격 참여한다.

이 사업은 디지털 뉴딜, 데이터 댐의 핵심 사업으로 AI 학습 데이터 구축사업을 통해 최신 일상대화 챗봇에서 나타나는 문제점들, 즉 일관된 정체성을 유지하지 못하거나 외부 세계의 새로운 정보를 반영하지 못하는 점, 상대의 감정에 적절하게 공감을 하지 못하는 점 등을 해결하는 것이 목표다.

심심이는 최근 NIA와 협약을 체결하며 ‘한국어 블렌더봇 데이터’ 구축 수행기관으로 해당 사업 참여를 결정했다.

블렌더봇이란 메타(전 페이스북)가 일상대화 챗봇 연구개발의 일환으로 2020 ~ 2021년 연달아 발표하며 세계적인 관심을 끌어 모은 최신 챗봇 기술을 말한다.

메타가 선보인 블렌더봇은 우수한 성능과 더불어 체계적인 개선 방법론, 데이터셋 등을 공개해 널리 인정을 받고 있다.

다만 데이터셋의 품질은 상대적으로 낮은 편인데 NIA는 이번 한국어 블렌더봇 데이터 과제를 통해 이 부분을 주목하였고, 이를 개선하기 위해 페르소나 대화, 지식검색 대화, 공감형 대화 등 세 가지 데이터셋의 한국어판을 구축하며 좋은 품질을 도모해 한국어 챗봇 데이터의 수준을 끌어올린다는 목표다.

심심이는 이번 사업에 참여하기 위해 챗봇 관련 각 분야 5개 기관과 컨소시엄을 구성해 데이터 구축을 제안한 바 있다.

그 결과 상장사, 대기업 등 쟁쟁한 컨소시엄들과 경쟁해 지난 3월 우선협상대상자로 선정돼 과제 조정 작업을 거쳐 왔다.

특히 심심이는 이번 협약으로 올해 11월 말까지 65억 원의 사업비를 지원 받아 최첨단 챗봇의 문제점을 개선하는데 필요한 대화 데이터 약 126만 발화를 구축할 예정이다.

심심이 컨소시엄 참여기관은 나라지식정보, 다이얼로그디자인에이전시, 미디어코퍼스, 엔에이치엔다이퀘스트, 튜닙 등이다.

최정회 대표는 “심심이는 20년 간 세계 4억 명 이상의 사용자들에게 실제 서비스를 제공하며 챗봇에서 발생하는 문제들을 다양하게 겪어 왔는데 이러한 것들을 해결하고자 데이터셋 구축을 위해 심심이 V2, 대화 메타버스를 출시한 바 있다”며, “메타는 블렌더봇을 통해 챗봇의 여러 문제를 해결하는 방법론을 제시했는데 심심이 V2가 이 방법론을 통해 더욱 정교하게 발전할 수 있을 것”이라고 강조했다.

이어 “지난해 같은 사업에서 챗봇 대화의 윤리 검증 데이터셋을 구축하는 과제를 주관으로 수행한 데 이어 올해도 국가 정책 사업에서 챗봇의 기술을 진보시키는 핵심 과제를 주관으로 수행하게 되었다”며, “향후 챗봇 등 대화형 AI 개발자들이 우리가 구축하는 데이터를 바탕으로 한국어 챗봇 기술을 발전시킬 수 있도록 고품질 데이터를 구축하기 위해 최선을 다할 것”이라고 전했다.

사진제공=심심이

남태화 편집장

유리하다고 교만하지 말고, 불리하다고 비굴하지 말라!

답글 남기기

이메일 주소는 공개되지 않습니다.

%d 블로거가 이것을 좋아합니다: