전체기사 최신뉴스 GAM
KYD 디데이

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
B-52, 캘리포니아 기지서 추락 [워싱턴=뉴스핌] 박정우 특파원 = 미 공군의 B-52 전략 폭격기가 15일(현지시간) 캘리포니아주 에드워즈 공군기지에서 이륙 직후 추락했다. 기지 측이 소셜 미디어 엑스(X)에 게시한 글에 따르면, 이날 오전 11시 20분 추락 사고가 발생했고 구조대가 즉각 현장 대응에 나섰다. 엑스에 올라온 사진에 따르면 사고 직후 기지 상공으로 연기 기둥이 치솟는 모습이 목격됐다. 통상 5명의 승무원이 탑승하는 B-52 폭격기는 냉전 이후 미 공군의 핵심 전력으로 자리 잡아 왔다. 보잉사가 제작한 이 항공기는 애초 원거리 핵 공격용으로 설계됐으나, 이후 이라크와 아프가니스탄에서의 수십 년에 걸친 군사 작전은 물론, 최근에는 이란을 상대로 한 표격 타격 임무까지 수행했다. 월스트리트저널(WSJ)에 따르면 미 공군은 B-52의 1960년대 구형 엔진을 연료 효율이 더 높은 현대식 엔진으로 교체할 계획이다. 이 새로운 엔진과 기타 성능 개량 작업을 통해 이 폭격기는 앞으로도 계속 현역으로 남을 수 있을 것으로 예상된다. 2026년 6월 15일 미국 캘리포니아주 에드워즈에서 미 공군 B-52 폭격기가 추락한 후 에드워즈 공군기지에서 연기가 피어오르고 있다. [사진=로이터 뉴스핌] dczoomin@newspim.com 2026-06-16 05:35
사진
트럼프 "19일 서명·해협 개방 동시에" [워싱턴=뉴스핌] 박정우 특파원 = 도널드 트럼프 미국 대통령은 14일(현지시간) 이란과의 협정 체결을 계기로 호르무즈 해협이 재개방될 것이라고 밝히며, 중동 지역의 긴장 완화와 원유 수송 정상화에 대한 기대를 재차 강조했다. 트럼프 대통령은 이날 소셜미디어 트루스 소셜에 올린 게시글을 통해 "이번 위대한 합의는 중동 전역에 평화와 안보를 가져올 것"이라며 "금요일(19일) 협정 서명과 동시에 해협이 개방되고, 기뢰 제거 작업을 위해 일정 시간이 필요하다"고 밝혔다. 이어 "이를 통해 역내는 물론 전 세계를 향한 원유 흐름이 양방향으로 다시 정상화될 것"이라고 주장했다. 그는 또 "많은 미국 대통령들이 이란과의 평화를 시도했지만 모두 실패했다"며 "역내 지도자들은 처음으로 진정한 평화를 달성할 수 있도록 도울 대통령을 찾았다"고 자평했다. 이는 자신이 추진 중인 대이란 협상이 기존 외교적 시도, 특히 버락 오바마 전 대통령의 이란 핵협정(JCPOA)rhk 차별화된 성과를 낼 것이라는 점을 부각하려는 발언으로 풀이된다. 앞서 트럼프 대통령은 별도의 게시글을 통해 이란 항구에 대한 미 해군의 봉쇄 조치를 "즉각 해제하도록 승인했다"고 밝힌 바 있어, 이번 발언은 군사적 긴장 완화와 해상 교통 정상화를 병행하는 조치의 연장선으로 해석된다. 다음은 트럼프 대통령의 게시글 전문 번역이다. "이번 위대한 합의는 중동 전역에 평화와 안보를 가져올 것이다. 많은 대통령들이 이란과의 평화를 만들려고 시도했지만, 나 이전에는 모두 실패했다. 역내 지도자들은 처음으로 진정한 평화를 달성할 수 있도록 도울 수 있는 대통령을 찾았다. 금요일 협정 서명과 함께 해협이 개방되면, 기뢰 제거를 위한 목적에서 일정 시간이 소요되겠지만, 역내와 전 세계를 향한 원유가 양방향으로 다시 흐르게 될 것이다. 도널드 J. 트럼프 대통령" 도널드 트럼프 미국 대통령의 소셜미디어 트루스소셜 게시글. [사진=트루스 소셜] dczoomin@newspim.com 2026-06-15 08:19
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동