시리·알렉사와 달리 실시간 대화 가능
비영어권 언어의 경우 기능 사용 제한받을 수도
이미지만 보고도 질문에 답변 가능
[서울=뉴스핌] 최원진 기자= 생성형 인공지능(AI) 챗GPT가 이제는 사람과 음성으로 대화하고, 이미지만을 보고 질문에 답할 수 있게 된다.
오픈AI는 25일(현지시간) "챗GPT가 이제 보고 듣고 말할 수 있다"면서 새로운 기능은 향후 2주 이내에 유료 구독제인 '챗GPT 플러스'와 기업용인 '챗GPT 엔터프라이즈'에 탑재하고 향후 개발자용 제품을 비롯해 서비스를 확대해 나가겠다고 밝혔다.
오픈AI와 챗GPT 로고 [사진=뉴스핌DB] |
구체적으로 챗GPT의 '듣고 말하는' 보이스 채팅 기능은 이용자와 음성으로 대화가 가능하다. 이용자의 명령 실행에 초점을 둔 애플의 시리(Siri), 아마존의 알렉사(Alexa)와 같은 음성인식 서비스와는 달리 실시간으로 대화가 가능하다는 것이 특징이다.
오픈AI는 "당신의 비서와 음성으로 대화를 주고받을 수 있다"며 "끊임없이 말을 걸 수도, 당신의 자녀에게 동화를 읽어달라고 요청할 수도, 저녁 식사 자리를 토론의 장으로 만들 수 있다"고 제안했다.
음성은 5가지 형태로 제공되는 데, 이용자는 원하는 목소리 형태를 선택할 수 있다.
한국어 음성 서비스 지원 여부는 미지수이지만 지원된다 해도 큰 기대를 해선 안 된다. 챗GPT가 이용자의 질문을 음성으로 받으면 이를 텍스트로 변환해 거대 언어 모델(LLM)에 전달, 답변을 받아 다시 음성으로 변환하는 구조인데 데이터 처리 과정의 복잡성 때문인지 "영어 텍스트를 (LLM으로) 전달하는 데 능숙하지만 라틴 문자 계열이 아닌 다른 언어의 경우 제대로 작업을 수행하기 어렵다"며 비영어권 이용자의 경우 기능 사용이 제한받을 수 있다고 설명했다.
진화한 챗GPT의 또 다른 기능은 이미지를 보고 답변하는 것이다. 오픈AI는 "냉장고 사진을 찍어 챗GPT에 오늘 먹을 메뉴를 추천해달라고 할 수 있다. 복잡한 데이터 그래프를 분석해달라고 할 수 있다"고 제안했다.
챗GPT가 이미지를 읽고 이용자의 질문에 답변하는 시연 영상 캡처. [사진=오픈AI] |
첨부된 시연 영상에는 이용자가 채팅창에 자전거 사진을 올리며 "안장 높이를 내리고 싶은데 도와달라"고 하자 챗GPT는 "안장 아래에 있는 레버나 볼트를 풀고 조정하면 된다"고 답변한다. 이용자가 안장 밑에 볼트가 있는 사진을 올렸고 챗GPT는 육각 렌치로 볼트를 풀어야 한다고 답한다. 도구함을 찍은 사진을 올리니 챗GPT는 왼편에 있는 도구가 알맞다고 알려준다.
오픈AI는 "우리 목표는 안전하고 유익한 범용인공지능(AGI) 구축"이라며 "새로운 도구를 점진적으로 제공하는 것이 기능을 개선하고 위험을 완화하면서 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있을 거라 믿는다"고 덧붙였다.
wonjc6@newspim.com