[서울=뉴스핌] 양태훈 기자 = 카카오의 AI 개발 전문 자회사 카카오브레인은 19일, 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하는 멀티모달 언어모델 오픈소스 '허니비(Honeybee)'를 깃허브(Github)에 공개했다고 밝혔다.
'허니비'는 이미지와 명령어(프롬프트)를 입력하면 텍스트로 답변하는 모델로, 텍스트로만 입⋅출력하는 대규모 언어모델(Large Language Model)에서 확장된 형태다.
이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있다. 예를 들어 '허니비'에 '농구 경기 중인 두 명의 선수' 이미지와 함께 '왼쪽 선수는 몇 번 우승했나요?'라는 질문을 영어로 입력하면, '허니비'가 입력된 이미지 내용과 질문을 종합적으로 이해하고 답변을 생성한다.
카카오브레인이 이미지와 대규모 언어모델을 연결할 수 있는 새로운 모듈을 제안하는 멀티모달 언어모델 오픈소스 '허니비(Honeybee)'를 깃허브(Github)에 공개했다. [사진=카카오브레인] |
'허니비'는 MME, MMBench, SEED-Bench 등의 벤치마크(성능 실험)에서 모델이 공개된 타사 MLLM 대비 최고 성능을 달성했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서는 2800점 만점 중 1977점을 받았다.
김일두 카카오브레인 각자 대표는 "허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했으며, '허니비'를 활용한 각종 서비스 확장을 고려 중"이라며, "더욱 발전된 AI 모델 확보를 위해 끊임없이 연구⋅개발할 것"이라고 전했다.
dconnect@newspim.com