쓰레기 정보까지 학습하는 챗GPT, 신뢰성 우려
"데이터 편향 측정·데이터 표준화 선도 적기"
[서울·대전=뉴스핌] 김수진 기자 = # 대전의 한 소재 관련 연구소에서 근무하는 A연구원은 재미삼아 대화형 인공지능(AI) 챗GPT로 연구보고서를 작성했다가 깜짝 놀랐다. 챗GPT가 보고서에서 인용했다는 논문은 실제로는 존재하지 않는 '거짓' 출처였기 때문이다. A연구원은 "그럴 듯한 내용으로 보고서를 만들어냈지만 자세히 살펴보면 내용의 오류가 상당했고 심지어 잘못된 참고 논문을 알려주거나 아예 거짓 출처를 제시하기도 했다"며 "한마디로 챗GPT가 거짓말로 소설을 쓴 것으로, 신뢰성 측면에서 상당히 우려된다"고 말했다.
산업계부터 의료, 교육, 정치, 문화·예술 모든 분야에서 챗GPT(chat GPT) 열기가 뜨겁다. 일론 머스크가 작정하고 차린 스타트업 '오픈AI'가 지난해 11월 말 '챗GPT'를 선보이며 전 세계를 뒤집어놓고 있다. 챗GPT은 그간 AI와는 전혀 다른 수준의 결과물을 만들어내며 공개 5일만에 이용자 100만명을 돌파하고 지난달에는 1억명 이상이 이용하고 있다. 오픈AI는 이달 중으로 이용자 2억명을 거뜬히 넘길 것으로 보고 있다. 챗GPT를 놓고 '아이폰 이후 최대 혁신' '모든 분야의 게임체인저' 등의 극찬이 연일 쏟아지고 있다.
오픈AI와 챗GPT 로고 [사진=로이터 뉴스핌] |
챗GPT는 대규모 언어모델(LLM)을 기반한 AI시스템에 많은 정보를 투입해 인간의 언어·문법 등을 이해시키는 학습과정을 거친다. 여기에 투입되는 정보는 인류가 그간 쌓아온 지식 자산을 기반으로 한다. 상황을 전체적으로 이해하고 대응하는 '인공일반지능(AGI)'에 가깝다. 심지어 출시 시점부터 이미 학습시스템을 완료한 모델로 곧바로 비즈니스 모델화가 가능하다는 장점도 갖췄다. 분야·기능별 AI모델을 새롭게 만들어야 하는 기존 모델과는 다르다. 국내 한 교육 플랫폼 대표는 "챗GPT가 시장에서 각광받는 이유도 즉각 활용할 수 있는 완성형 AI모델이기 때문"이라고 평가하며 "우리도 제품에 챗GPT를 도입을 위한 준비 중"이라고 밝혔다.
실제로 이미 국내에서도 챗GPT를 도입한 기업들이 적지 않다. 의학·건강부터 교육, 업무용 툴, 여행플래너 등 다양한 분야에서 해당 AI를 활용하고 있다.
일론 머스크 테슬라 CEO.[사진=로이터 뉴스핌] |
◇ 거짓말하는 챗GPT?..."TTA 데이터 편향기준 적극 활용해야"
그런데 출시 불과 3달만에 챗GPT를 어디까지 믿을 수 있느냐는 우려가 나오고 있다. 챗GPT가 신뢰성이 떨어지는 결과물을 내놓기 시작했기 때문이다.
실제 국내 한 언론사에서 챗GPT의 성능을 확인하기 위해 '현재 대한민국 대통령이 누구냐'고 묻자 문재인 전 대통령이라는 오답을 냈다. 또 미국 의사시험과 로스쿨 시험을 통과한 챗GPT가 정작 한국 대학수학능력시험 수리영역에서는 두 자리수 곱셈도 틀리는 등 연산능력에 한계를 보였다. 스스로 만들어낸 근거없는 출처를 바탕으로 한 논문을 작성하기도 했다. 이러한 상황에 더해 심지어 일부 커뮤니티에서는 잘못된 결과물을 내놓게 하기 위해 일부러 챗GPT에게 '가스라이팅'하는 놀이문화까지 번지고 있는 상황이다.
미국 워싱턴주 리치먼드의 마이크로소프트(MS) 본사에서 인공지능(AI) 챗봇이 탑재된 검색엔진 빙(Bing)을 체험해보는 시민. 2023.02.07 [사진=블룸버그] |
전문가들은 챗GPT가 학습한 데이터에는 팩트에 기반한 좋은 정보뿐만 아니라 인터넷에 돌아다니는 쓰레기 정보까지 모두 흡수하기 때문이라고 본다. AI가 데이터 오류까지 모조리 학습하다보니 틀린 답변을 내놓는 것. 이 때문에 출처 없이 '속이는 행위'가 빈번히 일어나고 사실과 거짓을 혼용한 결과물이 나온다. 챗GPT의 이러한 시스템을 악용할 수도 있다고 전문가들은 지적한다. 이해주 국가ESG연구원 공동대표는 한 언론을 통해 "여론조작에 이용되도록 유혹적 댓글을 수만개씩 양산할 수 있다"고 경고하기도 했다.
이처럼 AI 산업에서 정확성과 신뢰성이 화두로 떠오르면서 산업계·정부 모두 대책 마련에 나서고 있다. 시장 블루오션인 '신뢰성'을 확보하면 전세계 AI 시장을 선점할 수 있을 것으로 본 것이다.
실제로 한국은 전세계 최초로 '인공지능법'을 발의한 상태다. 국회 정필모(더불어민주당, 비례)의원은 '인공지능산업 육성 및 신뢰기반 조성 등에 관한 법률안'을 지난해 7월 발의, 현재 해당 법은 국회 과학기술정보방송통신위원회 정보통신방송 법안심사소위원회를 통과한 상태다.
특히 법안에는 '신뢰성 전문위원회'를 민간전문가로 구성해 AI 신뢰기반조성을 위한 의견 수렴 및 논의·연구를 진행하는 내용이 담겨 눈길을 끈다. 정 의원은 "국내 AI 기술 발전 기반과 국가역량 집중 투자 등을 위한 제도 마련을 위해 세계 최초 관련 법 제정이 시급하다"고 강조했다.
네이버는 챗GPT와 차별성을 두기 위해 AI윤리를 앞세우고 있다. 지난 2021년 2월 서울대와 협업해 AI윤리준칙을 발표, 자체 서비스에 적용하며 신뢰성 확보에 신경쓰고 있다. 네이버 측은 "AI의 편향성을 없애고 사용자 신뢰를 확보할 수 있는 AI를 연구개발하고 있다"며 "사회적 편향을 완화하는데 중점을 두고 있다"고 설명했다.
[사진=셔터스톡] |
일각에서는 신뢰성 확보를 위해 지금이야말로 정부 차원에서의 'AI 데이터 검증 표준화' 선도가 시급하다는 목소리가 커지고 있다.
소프트웨어 공학 전문기업 씽크포비엘 박지환 대표는 "학습데이터를 통제하지 않은 채 AI에 공정한 판단을 요구하는 것은 길거리에 자유롭게 방치된 아이가 무탈히 인격자로 자라나길 기대하는 것과 같다"고 꼬집었다.
이어 박 대표는 한국정보통신기술협회(TTA)가 이미 마련하고 있는 데이터 편향 측정 기준을 정부 차원에서 적극 활용해야 한다고 덧붙였다.
박지환 대표는 "AI허브에 민간기업을 위해 만들어 놓은 막대한 양의 공공데이터가 있는데 어떠한 가치가 있는지, 보완할 점을 무엇인지를 평가할 것을 제안한다"며 "AI 데이터 표준화를 대한민국이 선도한다면 우리 기준으로 세계 AI를 검증·평가하는 날이 올 것"이라고 말했다.
nn0416@newspim.com