실시간 양방향·백채널·응답 길이 최적화 등 음성 인터랙션 난제 부각
티맵·B tv·게임·모빌리티 등 활용 예시 언급…"데이터 주권이 관건"
[서울=뉴스핌] 양태훈 기자 = SK텔레콤(SKT) 컨소시엄이 정부가 추진하는 '독자 AI 파운데이션 모델' 프로젝트 2단계에서 초거대 언어모델 'A.X K1'을 멀티모달을 거쳐 옴니모달 모델로 확장하는 방향을 제시했다.
22일 SK텔레콤 뉴스룸에 따르면 컨소시엄 정예팀 일원인 김건희 서울대 교수는 칼럼에서 "A.X K1은 옴니모달 모델로의 진화를 계속해 나갈 계획"이라며 "이는 SKT 컨소시엄이 추구하는 '모두의 AI' 서비스 실현에 있어 핵심적인 기반이 될 것"이라고 밝혔다.
김 교수는 옴니모달을 텍스트뿐 아니라 사진·영상 등 시각 정보와 음성까지 통합적으로 이해하고 생성하는 모델로 설명했다. 그는 음성 대화가 텍스트 기반 대화와 달리 실시간 양방향 상호작용을 전제로 하며, '음', '맞아' 같은 짧은 반응(백채널) 처리 등으로 기술 난도가 높다고 밝혔다.

또 음성 대화에서는 응답이 길어질수록 상대방의 주의가 급격히 떨어질 수 있어 핵심 정보를 간결하게 생성하는 것이 어렵고, 음성에 특화된 다양한 사용자 지시를 모델이 적절히 반영해야 한다는 점도 과제로 제시했다.
김 교수는 옴니모달 진화의 기술적 경로로, 과거 음성인식(Speech-to-Text)과 음성합성(Text-to-Speech)을 결합한 단계적 처리 방식이 주로 활용됐지만, 이 방식은 처리 단계가 분리되면서 응답 지연이 발생하고 음성 고유 정보가 손실될 수 있다고 설명했다. 이어 최근에는 하나의 통합 언어모델이 음성 정보까지 직접 처리하는 방향으로 연구가 발전하고 있으며, 옴니모달 모델 성능의 핵심은 강력하게 사전 학습된 언어모델 역량에 있다고 덧붙였다.
김 교수는 옴니모달로 진화한 모델이 에이닷을 포함해 티맵, B tv 등 생활 밀착형 서비스에서 실시간 음성 대화를 지원할 수 있고, 게임 AI 및 모빌리티 AI 고도화에도 활용될 수 있다는 예시를 들었다.
아울러 소버린 AI 성공을 위해서는 국가 핵심 데이터 주권을 온전히 활용할 수 있어야 하며, 국가·공공·산업 데이터가 다양한 형식의 비정형 데이터인 만큼 옴니모달 모델이 외부 플랫폼 의존 없이 학습·운영하는 데 기여할 수 있다고 강조했다.
한편 A.X K1은 매개변수 5000억 개 규모의 초거대 언어모델로, SK텔레콤 컨소시엄에는 크래프톤, 42dot, 리벨리온, 라이너, 셀렉트스타와 서울대·KAIST 연구진 등이 참여하고 있다.
dconnect@newspim.com












