[서울=뉴스핌] 최문선 기자 = 국립국어원은 30일 인공지능 학습용 한국어 말뭉치와 국어 지식 자료 등 10종을 국립국어원 '모두의 말뭉치'에서 공개했다.
최근 한국의 국가 주권형 인공지능(소버린 AI) 개발 역량이 중요하게 부각되고 있는 상황에서, 국립국어원은 한국어 인공지능의 연구 개발을 지원하기 위해 인공지능의 한국어 이해와 생성 능력 향상에 필요한 말뭉치를 구축하여 공개하고 있으며, 이번에 새로 공개한 10종을 포함하여 지금까지 112종의 한국어 말뭉치를 공개했다.
![]() |
[서울=뉴스핌] 최문선 기자 = 모두의 말뭉치 첫 화면. [사진=국립국어원] 2025.06.30 moonddo00@newspim.com |
이번에 공개된 '표 설명 문장 작성 말뭉치', '요약 말뭉치', '글쓰기 말뭉치' 등은 인공지능이 다양한 유형의 한국어 텍스트를 이해하고 생성하며, 인공지능의 글쓰기 능력을 기르는 학습 자료로 활용할 수 있다. 또한, 한국문화 관련 용어 간의 의미 관계를 구축한 '한국언어문화 지식그래프'는 인공지능의 한국문화에 대한 지식을 넓히는 데 활용될 수 있으며, 한국어-한국수어 병렬 말뭉치는 한국어와 한국수어 간 자동 번역 기술 향상에 기여할 것으로 기대된다.
지금까지 공개된 112종의 말뭉치는 국어 연구와 언어 정보 처리 분야 연구 및 기술 개발에 활용하고자 하는 연구자, 개발자 등 누구나 이용할 수 있으며, '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하여 승인을 받으면 받을 수 있다.
국립국어원은 "2027년까지 한국어·한국언어문화 말뭉치 누적 200종을 구축할 계획"이라며, "앞으로도 국립국어원이 국어 정책 기관으로서의 전문성을 살려 고품질의 인공지능 한국언어문화 자원을 구축하여 한국형 인공지능 개발을 지원하고 인공지능 시대에 한국어와 한국문화가 보전될 수 있도록 역할을 하겠다"라고 밝혔다.
moonddo00@newspim.com