전체기사 최신뉴스 GAM
KYD 디데이
경제 과학기술

속보

더보기

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 : 2024년06월20일 10:52

최종수정 : 2024년06월20일 10:52

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
SKT 이용자 1천명, 공동손배소 예고 [서울=뉴스핌] 최수아 인턴기자 = SK텔레콤(SKT) 유심 정보 해킹 사태와 관련해 이용자 1천여 명이 SKT를 상대로 집단 손해배상 청구 공동소송을 예고했다. 법무법인 대륜은 22일 오전 서울 영등포구 소재 사무실에서 기자회견을 열고 "이번 주 또는 늦어도 다음 주 초에는 약 1000명 규모의 손해배상 소송을 제기할 예정이다"라고 밝혔다. 1인당 손해배상 청구 금액은 100만원으로 전해졌다. [서울=뉴스핌] 양윤모 기자 = 손계준 법무법인 대륜 변호사가 21일 오후 SK텔레콤의 유심(USIM) 정보 유출 사태 고발인 조사를 위해 서울 중구 남대문경찰서에 출석하며 입장을 밝히고 있다. 법무법인 대륜은 유영상 SK텔레콤 대표이사와 보안 담당자 등을 정보통신망법 위반, 위계에 의한 공무집행방해, 배임 등의 혐의로 경찰에 고발했다. 2024.05.21 yym58@newspim.com 대륜은 "집단소송 신청자는 1만 명 이상이나 서류 취합까지 완료된 분들에 한해서만 1차 민사소장 접수 예정"이라고 전했다. 이들은 해당 소장을 접수한 이후에도 2차 소장 모집을 계속할 계획이다.  대륜은 "역대 최대 규모의 유심정보 유출 사고로, 장기간 해킹에 노출된 정황이 있으며 피해자들은 유심 교체 등으로 현실적인 불편을 겪었다"면서 "SKT는 보안에 소홀한 반면 높은 영업이익을 유지해왔고, 지금까지도 피해 규모나 경위에 대해 충분히 밝히지 않고 있다"고 지적했다. 이어 "이러한 점을 종합하여 1인당 100만 원의 위자료 청구가 정당하다고 판단했다"고 설명했다. 또 "SKT는 고객의 개인정보를 안전하게 보호해야 할 의무가 있음에도 불구하고, 정보보호에 있어 구조적인 소홀과 의도적인 비용 감축 정황이 확인된다"고 주장했다. 공동소송이란 원고 또는 피고 혹은 그 쌍방이 여러 사람일 경우, 즉 소송주체가 다수일 경우를 의미한다. 이번 사건처럼 다수에게 피해가 발생했을 때 다수의 피해자가 함께 소송에 참여한다.  앞서 대륜은 지난 1일 SKT 유영상 대표이사와 SKT 보안 책임자를 업무상 배임과 위계 공무집행 방해 등의 혐의로 경찰에 고발했으며 전날(21일) 남대문경찰서에서 고발인 조사를 받았다. geulmal@newspim.com 2025-05-22 12:49
사진
폭스콘 "AI 데이터센터, 단계 건설" [서울=뉴스핌] 고인원 기자= 세계 최대 전자 위탁생산업체인 대만 폭스콘이 미국 반도체 기업 엔비디아와 함께 추진 중인 인공지능(AI) 데이터센터 프로젝트가 최대 100메가와트(MW) 규모로 단계적으로 건설될 예정이라고 밝혔다. 류양웨이 폭스콘 회장은 대만 타이베이에서 열린 '2025 컴퓨텍스 타이베이' 기조연설에서 "이번 AI 데이터센터는 엄청난 전력이 필요한 만큼, 단계적으로 구축할 것"이라며 "1차로 20메가와트 규모로 시작한 뒤, 40메가와트를 추가로 설치할 예정이며, 궁극적으로는 100메가와트까지 확대할 계획"이라고 말했다. 이 프로젝트는 전날 엔비디아가 대만을 대표하는 제조 기업 TSMC·폭스콘 및 대만 정부와 함께 초대형 AI 생태계를 대만에 구축한다고 발표한 데 따른 후속 설명이다. 2024년 10월 8일 대만 타이페이에서 열린 폭스콘 연례 기술 전시회에 전시된 폭스콘 전기이륜차 파워트레인 시스템 [서울=뉴스핌]박공식 기자 = 2025.05.14 kongsikpark@newspim.com 류 회장은 "전력은 대만에서 매우 중요한 자원"이라며 "공급 부족이라는 표현은 쓰고 싶지 않지만, 이를 감안해 여러 도시를 대상으로 부지를 분산하는 방식으로 데이터센터를 건설할 것"이라고 설명했다. 일부 시설은 대만 남서부 가오슝시에 우선 들어서며, 나머지는 전력 여건에 따라 다른 도시로 확대될 수 있다고 덧붙였다. 이날 류 회장의 키노트 무대 위로 젠슨 황 엔비디아 CEO가 깜짝 등장해 눈길을 끌었다. 황 CEO는 "이번 AI 센터는 폭스콘, 엔비디아, 그리고 대만 전체 생태계를 위한 시설"이라며 "우리는 대만을 위한 AI 팩토리를 만들고 있다. 여기에는 대만의 350개 파트너사가 참여하고 있다"고 강조했다. 이번 AI 데이터센터는 고성능 컴퓨팅 인프라 확보를 통해 AI 학습 및 추론 속도를 크게 높이고, 대만 내 AI 산업 생태계 전반에 걸쳐 활용될 것으로 기대된다. koinwon@newspim.com 2025-05-20 23:40
안다쇼핑
Top으로 이동