전체기사 최신뉴스 GAM
KYD 디데이
글로벌 미국·북미

속보

더보기

AI 최강자 등극 구글 '제미나이', GPT-4와 비교해 보니

기사입력 : 2023년12월07일 14:53

최종수정 : 2023년12월08일 07:49

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

[서울=뉴스핌] 최원진 기자= 구글이 오픈AI의 최신 생성형 인공지능(AI) 거대언어모델(LLM) 'GPT-4'를 능가하는 자체 모델 '제미나이(Gemini) 1.0'을 6일(현지시간) 공개해 화제다.

지난해 11월 챗GPT로 생성형 AI의 미래를 제시한 오픈AI가 기술 최강 자리를 굳건히 지킬 것이란 예상이 GPT-4 출시 후 불과 약 9개월 만에 깨진 것이다. 구글 제미나이가 AI 업계의 치열한 개발 경쟁에 다시 한번 불을 지폈다.

◆ 제미나이의 강점은 '멀티 플레이어'

제미나이는 3가지 버전으로 나온다. 구글이 지금까지 내놓은 것 중 가장 강력한 LLM이자 데이터센터와 기업용 모델인 '제미나이 울트라', 구글의 AI 챗봇 '바드'의 모델인 '제미나이 프로', 스마트폰 등 모바일 기기에서 사용 가능한 컴팩트한 사이즈의 '나노'다.

제미나이 프로는 제품 공개한 이날 바로 바드에 탑재됐다. 제미나이 프로가 적용된 바드는 170개 이상 국가 및 지역에서 영어로 제공되며, 향후 서비스 확장 및 새로운 지역과 언어도 지원될 예정이다. 

'제미나이 울트라'는 내년 초 '바드 어드밴스드'라는 이름으로 바드에 장착되며, '제미나이 나노'는 구글이 지난 10월 공개한 최신 스마트폰인 '픽셀8 프로'에 탑재된다.

구글은 제미나이가 "선천적"(natively)으로 멀티모달(Multi-Modal·다중모드) AI 모델이라고 소개한다. 멀티모달은 말그대로 텍스트뿐만 아니라 이미지, 동영상 등 비언어 입력값도 이해해 응용할 수 있는 '멀티 플레이어'다.

오픈AI가 이미지 생성 AI '달리'(DALL-E), 음성 인식 AI '위스퍼'(Whisper)를 각각 개발한 방식과 달리 구글은 애초부터 텍스트·이미지·오디오 등 다양한 데이터로 제미나이를 훈련해왔다는 것이다.

제미나이가 학생의 물리학 문제를 풀이해주는 예시. [사진=구글 딥마인드 제공]

특히 제미나이는 이미지와 동영상을 이해한 데이터를 응용하고 상호 작용하는 데 강점을 보인다.

예컨대 한 학생이 물리학 문제를 풀이하는 과정을 펜으로 쓴 이미지를 교사가 제미나이 프롬프트에 넣어 문제 풀이 과정에 어떤 부분이 틀렸는지 질문하면 제미나이는 정확히 문제의 정답과 학생의 손 글씨를 이해해 잘못된 문제 풀이 과정을 수정해 준다.

구글 딥마인드는 "제미나이가 이미지 속 텍스트를 이해하는 것을 넘어 교사가 어떻게 문제를 다르게 설정했는지 등을 이해해야 가능하다"고 설명했다. 제미나이는 오답 풀이 뿐만 아니라 학생이 틀린 유형의 다른 연습 문제도 제공해 교육 환경에서의 활용도가 높다는 게 자체 평가다.

이 밖에 제미나이는 동영상 속 언어를 감지해 번역 자막을 달아주고, 동영상 속 상황을 이해해 질문에 답할 수 있다.

◆ 32개 벤치마크 테스트 중 30개, 최고 성적

이미지와 영상의 이해부터 수학적 추론까지 가능한 제미나이 울트라가 업계에서 LLM 연구개발 평가 시 널리 사용되는 학술 벤치마크 기준 32개 가운데 30개 항목에서 GPT-4를 뛰어넘는 성적을 기록했다.

구체적으로 제미나이 울트라는 텍스트와 추론 벤치마크 부문 12개 중 10개, 이미지 이해 부문 9개 중 9개, 동영상 이해 벤치마크 6개 중 6개, 음성 인식 부문 5개 중 5개에서 GPT-4보다 높은 신기록을 썼다.

특히 대규모 다중작업 언어 이해(MMLU) 벤치마크에서 제미나이 울트라는 90% 이상의 정답률을 기록했다.

MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개의 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대표 격 LLM 벤치마크다.

구글 딥마인드는 제미나이 울트라의 MMLU 점수가 GPT-4의 86.4%를 앞선 것에서 나아가 AI 모델로는 최초로 인간 전문가 점수인 89.8%를 뛰어넘었다고 밝혔다. 

이 밖에 여러 단계의 추론을 요구하는 여러 문제 해결 능력을 평가하는 빅 벤치 하드(BIG-Bench-Hard)와 독해력 벤치마크인 DROP에서 각각 80%가 넘는 점수로 GPT-4를 능가했다. 

WMT23 벤치마크는 LLM의 번역 능력을 평가한다. 제미나이 울트라는 74.40%로 GPT-4보다 번역 능력이 우수했다.

다만 일상에 필요한 상식 추론 능력을 보는 헬라스웨그(HellaSwag) 벤치마크에서는 제미나이 울트라가 GPT-4에 못미쳤다. 

제미나이 울트라의 이미지 이해 능력은 GPT-4 보다 뛰어났다.

과학, 기술, 인문 과학, 음악 등 6개 핵심 부문 대학교 시험과 교과서에서 수집된 차트, 표, 악보 이미지를 이해하는 능력을 평가하는 다소 새로운 벤치마크인 MMMU에서 제미나이 울트라는 59.4%를 기록, GPT-4를 앞섰다.

이미지를 보고 이해해 관련 질문에 답할 수 있는 능력을 확인하는 VQAv2 벤치마크와 서류상 이미지를 이해하는 능력을 보는 DocVQA, 그래프 등을 보고 수학적 추론 능력을 보는 매스 비스타(MathVista) 벤치마크에서도 GPT-4 보다 좋은 성적을 거뒀다.

AI 모델의 동영상 이해를 평가하는 벤치마크들에서도 제미나이 울트라는 두각을 보였다. 

영상 속 상황을 텍스트로 옮기는 능력을 평가하는 VATEX 벤치마크와 영상과 관련된 질문에 답해 전반적인 영상 이해도를 평가하는 인식 테스트 MCQA 벤치마크 모두 GPT-4를 뛰어넘었다. 

이밖에 중국어 텍스트로 영상 속 상황을 옮기는 능력을 평가하는 VATEX ZH, 영어로 복잡한 요리 과정이 담긴 영상을 텍스트로 옮기는 YouCook2 등 여러 벤치마크에서도 높은 성적을 거뒀다.

제미나이 프로의 음성 인식 이해도도 우수했다. 21개 언어의 음성을 인식해 텍스트로 변환하는 능력을 평가하는 CoVoST 2 벤치마크에서 제미나이 프로는 40.1을 기록, 오픈AI의 음성 인식 AI 모델 '위스퍼' 버전 2(v2) 보다 10 이상 높았다.

62개 언어로 음성 인식 여부를 확인하는 FLEURS 벤치마크에서도 제미나이 프로는 7.6%를 기록, 위스퍼 v3 보다 월등했다. FLEURS는 AI 모델이 음성 인식 정확도를 측정하는 테스트로 점수가 낮을 수록 인식 오류가 적다는 의미다. 

이밖에 제미나이는 파이선(Python), 자바(JAVA), C++, Go 등 세계에서 널리 사용되는 프로그래밍 언어로 코드를 이해하고 생성할 수 있다. 

코딩 작업 성능을 평가하는 업계 표준인 휴먼이발(HumanEval) 벤치마크에서 제미나이 울트라는 74.4%를 기록해 GPT-4(67.0%)를 능가했다. 파이썬 코드 생성 능력을 평가하는 내추럴2코드(Natural2Code) 벤치마크에서도 GPT-4 보다 1%포인트(p) 높은 74.9%를 기록했다. 

[사진= 구글 홈페이지]

wonjc6@newspim.com

 

[뉴스핌 베스트 기사]

사진
[써보니] 트라이폴드 태블릿과 다르다 [서울=뉴스핌] 김정인 기자 = 삼성전자가 2일 공개한 3단 폴더블폰 '갤럭시 Z 트라이폴드'를 현장에서 직접 사용해보니 예상보다 가볍고 얇은 형태가 먼저 느껴졌다. 크기와 구조상 무게가 상당할 것이란 우려가 있었지만, 실제로 들어보면 생각보다 부담이 덜한 편이다. 다만 한 손으로 오래 들고 쓰기에는 다소 무리가 있고, 전용 케이스나 거치대를 함께 사용할 때 가장 안정적인 사용감이 나온다. 펼친 화면은 태블릿을 떠올리게 할 만큼 넓고 시원하지만, 두 번 접어 휴대할 수 있다는 점은 기존 태블릿과 확실히 다른 경험을 만든다. 동시에 두께·베젤 등 초기 모델의 구조적 한계도 분명히 느껴졌다. ◆ 10형 대화면의 시원함…멀티태스킹 활용도↑ 가장 인상적인 요소는 화면을 펼쳤을 때의 시야다. 10형 대화면은 영상 시청 시 몰입감이 크고 웹 검색·문서 작업에서도 확 트인 느낌을 준다.  [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'를 다 펼친 모습. 2025.12.02 kji01@newspim.com [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'로 3앱 멀티태스킹을 진행하는 모습. 2025.12.02 kji01@newspim.com 특히 최대 3개의 앱을 동시에 띄워놓는 멀티태스킹 기능은 생산성 관점에서 기존 폴더블보다 한 단계 더 진화했다는 느낌이 강했다. 세 개의 스마트폰 화면을 한 번에 펼쳐 놓은 듯한 넓이가 확보돼, 동시에 여러 작업을 처리하기에 충분한 공간감이 느껴졌다. 이메일·인터넷·메모장 등 업무 앱을 한 화면에서 자연스럽게 배치할 수 있고, 영상 콘텐츠를 켜둔 채 작업을 이어가는 것도 충분히 가능하다. [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'로 영상 시청을 하는 모습. 2025.12.02 kji01@newspim.com ◆ 구조에서 오는 한계도 분명…베젤·힌지·두께는 '새로운 폼팩터의 숙제' 새로운 구조 특성상 아쉬운 부분도 있다. 우선 베젤이 비교적 두꺼운 편이다. 화면을 여러 번 접는 구조라 물리적 여유 공간 확보가 필수적이다 보니 테두리가 두드러져 보인다. 상단 롤러(힌지 유닛 일부로 보이는 구조물)도 시각적으로는 다소 낯설게 느껴진다. 화면 연결부 자체는 자연스럽지만, 힌지 구조물 자체는 어색하게 보일 수 있다. [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'를 닫은 모습. 2025.12.02 kji01@newspim.com 또 하나는 완전히 접었을 때의 두께감이다. 구조상 여러 패널이 겹치는 형태라 다 접어놓으면 두껍게 느껴지는 것은 불가피하다. 다만 이는 구조에 따른 필연적인 결과로, 사용성에 치명적일 정도의 부담은 아니었다. [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'는 왼쪽 화면부터 닫아야 한다. 반대로 닫으려 할 시 경고 알람이 울린다. 2025.12.02 kji01@newspim.com 또 하나 눈에 띄는 점은 접는 순서가 고정돼 있다는 점이다. 오른쪽→왼쪽 순으로 접도록 설계돼, 반대로 접으려 하면 경고 알람이 울린다. 폼팩터 특성상 불가피한 방식이지만, 초기에 적응 과정이 필요하다. ◆ 태블릿과 겹치는 모습…그러나 휴대성이라는 확실한 차별점 사용 경험을 종합하면 '트라이폴드'는 태블릿과 유사한 역할을 상당 부분 수행한다. 대화면 기반의 콘텐츠 소비·문서 작업·멀티 환경 등 핵심 사용성은 태블릿과 맞닿아 있다. [서울=뉴스핌] 김정인 기자 = 삼성전자 '갤럭시 Z 트라이폴드'가 거치대에 놓인 모습. 2025.12.02 kji01@newspim.com 그러나 폴더블 구조로 접어서 주머니·가방에 넣을 수 있다는 점은 태블릿이 따라올 수 없는 차별점이다. 이동이 잦은 사용자에게는 '태블릿과 스마트폰의 중간 지점'에 있는 새로운 선택지가 될 수 있다. 강민석 모바일경험(MX)사업부 스마트폰PP팀장(부사장)은 "태블릿은 주머니에 넣고 다닐 수 없다. 태블릿은 대화면 그 자체의 장점이 있지만, 트라이폴드는 두께·무게 측면에서 소비자가 어디든 가져갈 수 있다는 점에서 혁신을 만들었다"며 "트라이폴드는 기존 태블릿과는 차원이 다른 새로운 카테고리라고 믿는다"고 말했다. ◆ 가격은 부담되지만…경쟁사 대비 '상대적 우위' 가격은 여전히 소비자에게 큰 장벽이다. 출고가 359만400원은 스마트폰 범주에서 결코 가볍지 않은 금액이다. 다만 경쟁사 제품들과의 상대 비교에서는 다른 해석도 가능하다. 중국 화웨이는 올해 출시한 트라이폴드폰을 1만7999위안(약 350만 원)부터 책정했다. 고용량 모델로 갈 경우 2만1999위안(약 429만 원)까지 올라간다. [서울=뉴스핌] 김정인 기자 = 임성택 삼성전자 한국총괄 부사장이 '갤럭시 Z 트라이폴드'를 소개하고 있다. 2025.12.02 kji01@newspim.com 이 기준에서 보면 삼성의 359만 원대 가격은 화웨이 평균 가격보다 낮은 편으로 비교된다. 특히 고용량 기준 화웨이 최고가와의 비교에서는 약 70만 원 가까운 차이가 나, '삼성이 가격 경쟁력까지 고려했다'는 해석이 가능하다. 또 시장에서는 출시 전부터 트라이폴드 구조상 부품 단가가 높아 400만 원 안팎이 될 것이라는 전망이 우세했다. 실제 출고가는 이 예상보다 낮게 형성되면서, 삼성이 새로운 카테고리 안착을 위해 가격선을 일정 수준까지 조정했다는 평가도 나온다. kji01@newspim.com 2025-12-02 11:48
사진
박대준 쿠팡 대표 "'자발적 배상도 고려" [서울=뉴스핌] 남라다 기자 = 박대준 쿠팡 대표가 "패스키 한국 도입을 검토하겠다"고 밝혔다. 박 대표는 3일 국회 정무위원회 현안질의에서 "한국 쿠팡에서 패스키를 도입할 계획이 있나"라는 이헌승 국민의힘 의원 질의에 이같이 답변했다. [서울=뉴스핌] 윤창빈 기자 = 박대준 쿠팡 대표이사가 3일 서울 여의도 국회 정무위원회에서 열린 쿠팡 개인정보 유출 관련 현안질의에서 의원 질문에 답변하고 있다. pangbin@newspim.com 이 의원은 "대만 쿠팡에서 글로벌 기준에 부합하는 전용 패스키 기술을 독자 개발하고 보급했다"며 "한국에 패스키를 도입했다면 이런 사고가 일어났겠냐"고 강하게 질타했다. 이어 "우리 대한민국에도 바로 대만처럼 대처할 수 있습니까"라고 따져물었다. 이 의원 질의에 박 대표는 "의원님 말씀에 공감하고 깊이 책임감 느끼고 있습니다"며 "조속히 (한국)에 도입될 수 있도록 검토하겠습니다"고 말했다. 소송을 통한 배상 대신 자발적으로 배상 조치하라는 질의에 대해 "적극적으로 검토하겠다"고 전했다. nrd@newspim.com 2025-12-03 15:54
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동