"글로벌 모델과 맞먹는 성능, 비용·속도 혁신적 효율성 확보"
"온디바이스 모델로 통화 녹음·요약·숏폼 분석 적용"
"한국어·한국 문화에 특화된 AI로 일상 서비스 전방위 확산"
[서울=뉴스핌] 양태훈 기자 = 카카오가 자체 개발한 AI 모델 '카나나'의 구체적인 성과와 적용 사례를 공개하며 AI 시대 핵심 기술 경쟁력을 강조했다.
23일 김병학 카카오 카나나 성과리더는 이날 경기도 용인 카카오AI캠퍼스에서 열린 'if(kakao)25' 컨퍼런스 기조연설에서 "카나나는 글로벌 모델과 견줄 만한 성능을 갖추면서도 효율성을 극대화한 AI"라며 "한국어와 한국 문화에 최적화된 언어 이해력으로 카카오 서비스 전반에 본격 적용되고 있다"고 말했다.
김 리더는 먼저 카나나 모델의 개발 철학을 ▲글로벌 모델에 필적하면서도 비용 효율적일 것 ▲카카오 서비스와 수천만 사용자의 특성에 맞춘 AI 경험을 제공할 것 ▲사용자 정보 보호와 안전한 응답을 최우선으로 할 것으로 소개했다. 그는 "이 방향성을 바탕으로 카나나는 온디바이스 모델, 에이전틱 AI 모델, 그리고 멀티모달 모델로 진화하고 있다"며 "텍스트뿐 아니라 음성과 이미지까지 동시에 처리하는 모델로 발전했다"고 설명했다.
![]() |
23일 경기도 용인 카카오AI캠퍼스에서 열린 'if(kakao)25' 컨퍼런스 현장. 카카오 김병학 카나나 성과리더가 대해 자체 모델 '카나나'에 대해 설명하고 있다. [사진=양태훈 기자] |
김 리더는 카나나 개발 성과 중 하나로 국내 최초 멀티모달 언어모델 '카나나-오(Kanana-o)'의 우수성을 특히 강조했다. 그는 "텍스트·음성·이미지를 동시에 인식하고, 텍스트와 음성으로 답변할 수 있다"며 "예를 들어 사용자가 제주 방언 '폭삭 속았수다' 같은 표현을 보내면, 글로벌 모델들은 '완전히 속았다'고만 해석하거나 타 지역 사투리로 잘못 인식하지만, 카나나는 이를 '제주 방언'이라는 맥락을 정확히 이해한다. 한국어와 한국 문화에 특화된 AI로서 차별성이 있다"고 말했다.
이어 "카나나-오 모델은 GPT-4급 글로벌 모델과 비교해 한국어 벤치마크에서 더 뛰어난 성능을 보여준다"며 "이는 언어모델 성능을 지속적으로 개선해 온 결과"라고 전했다.
카카오는 올해 2월 언어모델 라인업을 완성했고, 이후 개발한 '카나나 1.5'는 고난도 문제 해결 능력을 대폭 끌어올리는 데 성공했다. 카카오가 현재 준비 중인 '카나나 2.0'의 경우, 추론 능력을 강화하고, 'MLA(Multi-head Latent Attention)' 기법과 'MoE(Mixture of Experts)' 구조를 적용해 대규모 동시 접속 환경에서도 효율성을 극대화하도록 설계됐다.
김 리더는 "아무리 성능이 뛰어나도 효율성이 뒷받침되지 않으면 서비스 비용을 감당하기 어렵다"며 "카나나는 성능과 효율성을 동시에 확보해 초대규모 트래픽에도 대응할 수 있다"고 자신했다.
![]() |
23일 경기도 용인 카카오AI캠퍼스에서 열린 'if(kakao)25' 컨퍼런스 현장. 카카오 김병학 카나나 성과리더가 대해 자체 모델 '카나나'에 대해 설명하고 있다. [사진=양태훈 기자] |
카카오는 카나나 모델을 자사 서비스에 적극 적용하고 있다. 먼저 카카오톡 통화 녹음 기능에는 온디바이스 AI '카나나 1.5 나노'를 적용, 자체 지식증류·경량화·양자화 기법을 통해 작은 모델에서도 빠르고 뛰어난 성능을 구현했다.
김 리더는 "1.3B 모델임에도 글로벌 4B 모델에 필적하는 성능을 보인다"며, "민감한 데이터를 서버로 전송하지 않아도 안전하게 활용할 수 있다"고 설명했다.
카나나를 활용한 음성 인식 모델의 경우, 통화 녹음을 30분 기준 10초 만에 텍스트로 변환할 수 있는 성능을 확보했다. 이는 GPT-4 미니 대비 105% 정확도를 2%의 비용으로 구현한 것이다.
또한 '카나나 1.5 Essence(9.8B)'는 통화 요약 기능에 적용돼, 통화 내용을 단 6초 만에 다섯 문장으로 요약할 수 있다. 김 리더는 "이는 참여자 익명성 보장 등 요구사항을 충족하면서도 GPT-4보다 좋은 성능을 0.5% 비용으로 달성한 것"이라고 강조했다.
카나나의 멀티모달 모델은 숏폼 추천·생성 기능에도 활용 중이다. 오디오·비주얼 정보를 동시에 분석해 1.4초 만에 메타데이터를 추출, 추천 정확도를 글로벌 대비 높였다. 동시에 '카나나 키네마' 모델은 사용자가 올린 이미지를 바탕으로 짧은 영상을 8초 만에 생성할 수 있다. 이는 카메라 움직임과 인물 동작까지 제어할 수 있어, 단순한 영상 편집을 넘어 창의적인 숏폼 제작이 가능하다.
김 리더는 "GPT-4급 성능을 유지하면서도 6.6배 빠른 속도를 구현, 효율적인 구조 덕분에 비용도 크게 절감됐다"며 "앞으로 카카오톡을 비롯한 다양한 서비스에서 글로벌 모델보다 더 빠르고 효율적인 카나나 모델을 경험하게 될 것"이라고 전했다.
dconnect@newspim.com