전체기사 최신뉴스 GAM
KYD 디데이
문화·연예 문화·연예일반

속보

더보기

문체부·국립국어원 '챗GPT 말뭉치 사업' 긴급진단…현주소는?

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

문체부, 국어원과 'K-챗GPT' 저작권·활용방안 논의
국립국어원, K-GPT 개발 지원 '말뭉치' 사업
이달 말 '모두의 말뭉치' 영문판 홈페이지 개통
말뭉치 사업, 올바른 한국 정보 알리기 위한 기초 작업

[서울=뉴스핌] 이현경 기자 = 한국형 챗GPT 개발을 지원하는 국립국어원이 이달 말 '모두의 말뭉치' 홈페이지의 영문판을 개통한다.

'모두의 말뭉치'는 국립국어원이 거대 인공지능(AI) 기술에 활용될 언어 자료를 공식적으로 게시하는 온라인 공간이다. '모두의 말뭉치'의 영문판 홈페이지 구축은 한국 관련 정보의 오류 발생을 줄일 수 있는 발판을 마련한 것으로 해석된다. 

국어원에 따르면 '말뭉치 사업'은 고차원적인 한국어를 이해할 수 있는 자료인 동시에 저작권이 해결된 정보이기 때문에 기존 챗GPT가 소개하는 한국 정보보다 신뢰성도 높다. 이에 잘못된 한국 정보를 바로 잡는데 기여할 것으로 기대한다.  

[서울=뉴스핌] 이현경 기자 = 국립국어원의 '모두의 말뭉치' 홈페이지 2023.03.17 89hklee@newspim.com

유희정 국립국어원 언어정보과 학예연구사는 뉴스핌을 통해 "3월 말까지 '모두의 말뭉치' 영문 페이지를 개통하고,  올해 안으로 외국인 이용자의 홈페이지 회원가입 간소화를 위한 작업도 추진한다"고 밝혔다.

현재 '모두의 말뭉치' 홈페이지는 국문판만 개설돼 있다. 이곳에서도 국내외인 상관 없이 회원가입만 하면 국어원이 제공하는 한국어 말뭉치 자료를 내려받아 사용·활용할 수 있다. 가입 과정에서 휴대폰 번호를 통한 본인 인증이 필요한데, 외국인은 불가하기 때문에 그간 이메일이나 우편을 통한 서면 자료를 제출해야 하는 불편함이 있었다. 올해 내로 이 과정을 간소화해 외국인도 편리하게 한국어 말뭉치 자료를 활용할 수 있게 됐다.

장소원 국립국어원장은 말뭉치 사업이 한국에 대한 정확한 정보를 해외에 전하는데 도움이 될 것이라고 강조했다. 현재 공개된 챗GPT의 한국어 이해 능력과 한국에 대해 설명하는 정보는 신뢰할 수 없다는 평가다.

장 원장은 "한국어 챗GPT를 잘 만들려면 한국어 말뭉치를 잘 만들어야 한다"며 "챗GPT-4의 한국어 능력은 이전보다 나아졌지만, 앞선 세대는 잘못된 정보가 많았다. '국립국어원장이 누구냐'고 물으니 '김영권 교수'라며 거짓 정보를 말하더라"라고 말했다.

이어 "우리나라에 대한 정보를 잘 전달하기 위해서 말뭉치 사업이 필요하다"면서 "아직은 (오픈AI의)챗GPT 수준이 신뢰할 정도는 아니다. 잘 모르면 모르겠다고 하면 좋겠는데 지어내기도 한다"며 "미국에서 만든 챗GPT이기 때문에 한국어 말뭉치를 어디에서 가져온 것인지도 모른다. 국어원의 말뭉치 사업은 정교하고 고차원적인 해석이 가능하도록 하는 말뭉치 작업이기 때문에 한국어 능력과 정보에 대한 신뢰성을 올릴 수 있다. 또한 대기업, 작은 기업도 모두 활용할 수 있다"고 언급했다.

◆ 챗GPT 열풍… 문체부·국어원 K-GPT 개발 지원

[사진=게티이미지뱅크]

전 세계적으로 초거대 인공지능(AI)시대가 본격적으로 개막했다. 지난해 11월 미국의 인공지능 연구개발 기업 오픈AI가 개발한 챗GPT가 세상에 공개되면서다. AI의 인간을 뛰어넘는 학습 능력은 모두가 인정하는 부분이지만 자연스러운 언어 구사를 통한 소통은 신기술의 발전으로 평가된다.

챗GPT의 성능이 입증된지 불과 6개월도 채 되지 않은 지난 14일(현지시각)에는 인공지능 챗봇 '챗GPT'의 능력이 한 단계 더 향상됐다는 소식이 전해졌다. 오픈AI는 GPT-4를 공개하고 챗GPT가 문자뿐 아니라 사람의 손글씨, 이미지도 인식하고 이전보다 오류 발생률이 줄었다고 밝혔다. 앞서 11월에 공개된 GPT-3.5에 비해 GPT-4는 기존 회당 3000단어에서 2만5000단어를 처리할 정도로 수행력이 높아졌으며, 특히 한국어 처리 이해 정확도를 77%로 끌어 올리며 높은 성능을 자랑했다.

전 세계적인 챗GPT 열풍에 발맞춰 올해 2월 문체부는 국립국어원과 함께 추진하는 '한국어를 잘하는 K-챗GPT' 개발을 지원한다고 밝혔다. 이에 지난달 24일 AI 등 신기술 관련 저작권, 활용방안과 관련해 논의할 워킹그룹을 발족했다. 이 워킹그룹은 2027년까지 한국어 특성을 반영한 고품질 말뭉치 10억 어절 구축 계획을 세울 예정이다. 

올해는 한국형 챗GPT가 빠르게 개발될 수 있도록 25종, 약 1억2000만 어절의 고품질 한국어 말뭉치를 구축해 배포한다. 국어원에 따르면 4월 중 25종 말뭉치 사업과 관련한 발주를 마무리하고 5월 중 계약까지 체결한 후 수립된 올해 계획이 시행된다.

유희정 국어원 학예연구사는 "챗GPT-4가 올해 나온다는 건 지난해 말부터 예측이 됐다. 최근 챗GPT를 사용해보면 알겠지만 한국어로 소통이 가능하지만 한국에 대한 정보, 한국 문화와 한국어에 대한 이해는 뛰어나지 않다"고 평가했다.

◆ 국어원, '저작권' 문제 해결된 말뭉치 자료

국어원이 추진하는 말뭉치 사업은 AI가 '고차원적'인 한국어 처리 능력을 할 수 있도록 하는 밑바탕 작업이다. 국어원은 2018년부터 대규모 한국어 말뭉치 사업을 시작해 37종(약 22억 어절)을 공개 사이트인 '모두의 말뭉치' 통해 제공하며 한국어 인공지능 개발에 활용되고 있다.

고품질의 말뭉치는 사람이 직접 말뭉치에 한국어 분석 정보(어휘 의미, 구문, 개체명, 감성 등)를 입력하고 검수하는 과정을 거치는데, 이 과정에 비용이 많이 들기 때문에 한국어 말뭉치 제공은 스타트업의 언어자료 구축 비용 절감과 개발된 인공지능 기술의 고도화에 기여하고 있다.

국어원이 제공하는 '말뭉치'는 '저작권' 문제가 해결된 자료다. 여러 분야의 정보를 제공하는 AI의 학습을 위해 다양한 방면의 자료가 필요하다보니 자료 수집 과정에서 중복된 자료, 거짓 정보까지 포함된다. 여기에 출처가 분명하지 않으면 저작권 문제까지 번질 수 있다. 누구나 자료를 쓸 수 있게 하기 위해 저작권 문제에 집중하고 있으며 예산도 저작권 관련 비중이 가장 높다. 

유희정 연구사는 "실제로 웹크롤링(웹 검색을 통해 추출하는 자료)을 통한 공개된 데이터를 개발과 연구에 사용할 때 윤리적인 문제나 저작권 문제가 발생한다"고 말했다.

이어 "저작권을 확보한 자료를 수집하더라도 인공지능이 학습할 수 있는 형식으로 가공이 필요한데 이 작업을 국어원에서 한다"며 "인공지능 모델이 한국어를 처리하기 위해 이 자료를 어떤 뜻으로 해석해야 하고 어떤 문장으로 분석해야하는 지 등의 지침을 만들고 데이터화하는 작업까지 한다"라고 소개했다. 

유 연구사는 "카카오나 네이버와 같은 대기업은 AI 모델에 학습시킬 다양한 한국어 자료를 확보할 사정이 되지만 이에 비해 중소기업이나 스타트업은 거대 데이터 수집이 힘들고, 이 과정에서 자료가 중복되거나 사실이 아니거나 저작권이나 윤리적인 문제가 일어날 수 있다"며 "국어원이 제공하는 자료는 저작권과 관련해서는 안심하고 사용할 수 있다"고 덧붙였다. 

89hklee@newspim.com

[뉴스핌 베스트 기사]

사진
안세영, 왕즈이 잡고 말레이오픈 3연패 [서울=뉴스핌] 박상욱 기자 = 날카로운 공격력까지 장착해 한 차원 업그레이드 된 안세영(삼성생명)이 2026년 첫 국제 대회에서 우승했다. 안세영은 11일 말레이시아에서 열린 세계배드민턴연맹(BWF) 월드투어 슈퍼 1000 말레이시아 오픈 여자 단식 결승에서 세계랭킹 2위 왕즈이(중국)를 56분 만에 게임 스코어 2-0(21-15, 24-22)으로 물리치고 대회 3연패를 달성했다. 우승 상금은 10만1500달러(1억3000만원)다. [서울=뉴스핌] 박상욱 기자 = 안세영. [사진=BWF] 2026.01.11 psoq1337@newspim.com 지난 해 8차례 만나 모두 왕즈이를 제압했던 안세영은 이날 승리호 상대 전적 17승 4패가 됐다. 왕즈이는 지난해 12월 21일 왕중왕전 결승에서 패한 뒤 "안세영은 항상 모든 나라 선수들에게 롤모델"라며 믹스트존에서 한동안 말을 잇지 못했고 눈물을 쏟았다. BWF 관계자조차 "왕즈이의 이런 모습은 처음 본다"고 할 만큼 이례적인 반응이었다. 이번 대회는 안세영에게 긍정적인 변수가 많았다. 8강에서 맞붙을 예정이던 세계 3위 한웨이(중국)가 감기 몸살로 기권했고 준결승에서 최대 난적인 세계 4위 천위페이(중국)의 기권으로 결승에 올랐다. 결승 상대 왕즈이는 이날 경기 전 "안세영은 허점이 거의 없는, 매우 철저하고 완성도 높은 선수"라며 승리에 대한 각오를 다졌다. 안세영은 1게임 초반 몸이 덜 풀린 듯 범실을 쏟아내며 1-5까지 밀렸다. 뒤늦게 리듬을 찾은 안세영은 하프 스매싱을 앞세워 득점을 쌓아 10-11로 인터벌에 들어갔다. 휴식 후 특유의 송곳샷이 살아나며 역전했고 셔틀콕을 상대 엔드 라인과 사이드 라인 위에 떨어뜨리며 21-15로 게임을 잡았다. [서울=뉴스핌] 박상욱 기자 = 안세영이 11일 월드투어 슈퍼 1000 말레이시아 오픈 여자 단식 결승에서 승리한 뒤 포효하고 있다. [사진=BWF SNS 동영상 캡처] 2026.01.11 psoq1337@newspim.com [서울=뉴스핌] 박상욱 기자 = 안세영이 11일 월드투어 슈퍼 1000 말레이시아 오픈 여자 단식 시상식에서 포즈를 취하고 있다. [사진=BWF SNS 동영상 캡처] 2026.01.11 psoq1337@newspim.com 2게임에선 짜릿한 뒤집기쇼를 펼쳤다. 9-17까지 밀려 패색이 짙었으나 수비와 길게 가져가는 랠리로 추격에 나섰다. 왕즈이가 20-19로 먼저 게임 포인트에 들어갔지만 안세영이 듀스를 만들고 23-22로 앞선 뒤 대각 스매시로 챔피언십 포인트를 뽑았다. 2026년을 여는 첫 국제대회에서 우승한 안세영은 환호하는 말에이시아팬들을 향해 두 팔을 번쩍 들어올리며 포효했다.   psoq1337@newspim.com 2026-01-11 14:46
사진
'중밀도 도심블록형주택' 띄웠지만 [서울=뉴스핌] 이동훈 선임기자 = 정부가 신속한 주택 공급을 목표로 도심 저층 주거지를 활용한 중밀도 주택단지인 이른바 '도심 블록형 주택' 도입을 검토하고 있지만, 실현 가능성과 정책 효과를 둘러싼 우려가 적지 않다. 정부가 구상 중인 도심 블록형 주택은 공공재개발 방식을 일부 차용한 사업 모델로, 토지를 수용한 뒤 공공이 임대주택을 공급하는 구조가 유력하게 거론된다. 이 경우 토지 및 주택 소유주에 대한 보상 문제가 핵심 쟁점으로 떠오를 가능성이 크다. 특히 민간 재개발·재건축 사업에서는 조합이 자체적으로 책임지는 이주 대책을 정부가 직접 부담해야 하는 상황이 발생할 수 있어 행정·재정적 부담이 커질 수 있다는 지적이 나온다. 사업성에 대한 회의적인 시각도 제기된다. 중밀도 주택 특성상 용적률이 제한돼 주택 공급의 순증 효과가 크지 않은 데다, 도심 내 고비용 구조를 감안할 경우 공급 확대 수단으로서의 효율성이 낮다는 평가다. 여기에 수용과 임대주택 건설을 전제로 할 경우 대규모 재정 투입이 불가피해 재정 부담 논란도 피하기 어렵다는 분석이 나온다. 11일 건설·부동산 업계에 따르면 정부가 '특화주택' 정책의 일환으로 추진 중인 중밀도 도심 블록형 주택 사업은, 현재 거론되는 '수용 후 전세형 임대주택 공급' 방식으로 진행될 경우 정책 성과가 제한적일 수 있다는 진단이 업계 전반에서 제기되고 있다. 주택 공급 확대라는 정책 목표에 비해 실질적인 공급 효과와 비용 대비 효율성이 낮을 수 있다는 점에서 제도 설계 전반에 대한 재검토가 필요한 상황이다. AI 작성 이미지 도심 블록형 주택은 35층 가량 고밀도로 아파트를 짓는 재건축·재개발과 달리 저층 다가구 밀집지역을 '블록' 단위로 묶어 중밀도의 주택을 공급하는 방식이다. 중밀도의 의미는 확정되지 않았지만 대략 10층 미만의 새로운 공동주택 유형이 될 것으로 보인다. 현행 법령의 다세대주택(빌라) 규정대로 5층 이하로 지어 단독·다세대 주택과 대단지 아파트 사이에 위치한 일종의 타운하우스 단지와 유사한 새로운 중간 주거 유형으로 짓는다는 구상도 나온다. 이 모델은 대통령 소속 국가건축정책위원회(국건위)가 검토 중인 새로운 주택 모델로 알려졌다. 국건위는 도심 블록형 주택이 당장 추가 공급대책 물량이라기보다 단지형 아파트와 다세대·다가구 주택 사이에 새로운 건축 모델을 제시하는 중장기 구상이라고 밝혔다. 저층 주거지를 속도감 있게 개발하기 위해 도입한 개념이란 이야기다. 하지만 정부는 빠른 도입을 추진하고 있다. 김윤덕 국토교통부 장관은 지난 2일 정부세종청사에서 열린 주택공급추진본부 출범식에서 "전세 물량이 심각하게 부족한 상황은 아니지만 공급 감소로 인한 어려움이 나타나고 있다"며 "도심 블록형 주택과 같은 새로운 형태의 주택 공급을 고민하고 있다"고 말했다. 이어 국토부는 9일 발표한 경제성장전략에서 특화주택 도입을 위해 올 1분기 중 근거법을 마련한다는 방침을 밝혔다.  블록형 주택은 윤석열 정부 때 나온 '뉴:빌리지' 사업을 개편한 사업으로 꼽힌다. 뉴빌리지는 전면적인 재개발·재건축이 어려운 노후 단독, 빌라촌 등 저층 주거지역에서 민간이 주택을 정비할 경우 금융·제도적 인센티브와 공공의 기반·편의시설 설치를 패키지로 지원하는 사업이다.   다만 이재명 정부가 내놓은 도심 블록형 주택은 뉴빌리지와 달리 공공개발이란 특성을 갖는다. 뉴빌리지가 높은 분담금이나 재개발을 원치 않는 주민들의 자력 주거환경개선을 지원하는 사업이라면 도심 블록형 주택은 LH(한국토지주택공사)를 사업시행자로 도심내 저층주거지를 대상지로 지정해 토지를 수용한 뒤 재정을 투입해 최대 10층 이내 임대 주택을 짓는 소규모 공공재개발사업이다. 임대주택이 완공되면 임대사업은 사회적 기업이 대행한다. 박원순 시장 시절 서울시가 도입한 사회주택과 똑같은 방식이다. 도심지역 임대주택 공급을 늘리며 사회적 기업을 양성하는 제도인 셈이다.  도심 블록형 주택은 정부의 강제성이 없으면 사회 추진이 어려울 것으로 보인다. 노후 저층주거지역에 사는 거주자들이 재개발에 반대하는 이유는 먼저 높은 분담금 때문이며 입주까지 15년 이상 걸릴 수 있다는 부담 때문이다. 수용방식으로 진행되는 도심 블록형 주택은 이같은 문제는 해결할 수 있지만 보상금액에서 문제가 발생할 수 있다. 현 여당인 민주당은 야당 시절부터 LH의 매입임대주택사업에서 지나치게 많은 보상금액을 준다고 비판한 바 있다. 이재명 정부는 출범 이후 매입임대주택사업의 보상비용 문제를 지적하며 이의 개선을 추진하겠다는 뜻을 밝힌 상태다.  도심지는 수도권 신도시 후보지와 달리 토지비용이 월등히 높으며 실제 거주하는 인구도 훨씬 많다. 이 때 보상금액을 '합리적'으로 낮추면 소유주들은 수용을 반대할 수밖에 없고 정부의 강제집행이 이뤄지지 않으면 사업 추진이 힘들어진다. 수용당한 주민들에게 새로 지어질 도심 블록형 주택의 입주권을 보장하는 방식이 되면 분양가가 문제가 될 것이며 임대주택이 절반 이상이고 중밀도 단지라는 점에서 향후 재산가치 상승 가능성은 매우 낮아진다. 이는 공급자인 정부와는 상관없지만 해당 소유주들에겐 큰 문제가 될 수 있다.  더욱이 민간 재정비사업에선 세입자 이주문제는 사업자들이 스스로 해결해야하지만 도심 블록형 주택사업은 공공사업인 만큼 정부가 직접 해결해줘야한다. 정부는 최근 1기 신도시 재정비 추진과정에서 해당 지자체에 강력한 이주대책을 주문했고 이의 부실을 이유로 분당신도시 등은 지정물량을 축소하겠다는 방침을 밝힌 바 있다. 이에 따라 '임대주택을 짓기 위해 추가 임대주택을 확보해야하는' 일이 벌어질 수 있다. 아울러 중밀도로 지어지는 도심 블록형 주택은 실제 순증하는 주택수가 많지 않다는 점도 문제점으로 꼽힌다.  이와 함께 높은 분담금을 감수하더라도 재개발사업으로 고품질 주택을 갖고 싶어하는 주민들의 주거 개선 소원은 완전히 좌절되게 된다는 점도 문제점으로 꼽힌다.  한 부동산업계 관계자는 "고밀도로 개발해서 소유주에게 분양주택을 주고 나머지는 임대로 제공해야할텐데 막대한 재정을 들여 토지 수용 후 중밀도로 집을 지어서 임대주택을 공급한다는 것 자체가 주택공급 확대와 관련이 없다"며 "시장이 순응할 합리적인 방안 마련이 필요할 것"이라고 말했다.  donglee@newspim.com 2026-01-11 06:14
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동