AI 핵심 요약
beta- 온더아이티가 22일 VLM 기반 한국어 OCR 모델 'BizOnAI V-OCR'을 공개했다.
- 한국어 문서 OCR 평가 벤치마크 'KDoc-OCRBench'도 함께 공개했다.
- KDoc-OCRBench에서 83.0%로 경쟁 모델을 앞섰고 구조 인식에 강점을 보였다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울=뉴스핌] 조한웅 기자 = 온더아이티가 Vision-Language Model(VLM) 기반 한국어 Document OCR 모델 'BizOnAI V-OCR'을 GitHub와 Hugging Face에 공개했다고 22일 밝혔다.
회사는 모델과 함께 한국어 문서 OCR 성능 평가용 벤치마크 'KDoc-OCRBench'도 함께 공개했다. 온더아이티는 한국어 특화 OCR 모델과 평가체계를 동시에 공개한 사례라고 설명했다.
BizOnAI V-OCR은 계약서, 행정문서, 제안서, 보고서, 프레젠테이션 자료 등 기업·공공 분야 문서를 기반으로 개발됐다. 한국어 문서 레이아웃과 한·영·중 혼합 텍스트, 긴 문단, 세로형 표, 복합 서식 문서 등을 처리할 수 있도록 설계됐다고 회사 측은 밝혔다.
이 모델은 문자 인식뿐 아니라 문서 구조와 맥락 분석 기능에 초점을 맞췄다. 표 구조, 머리글, 바닥글, 본문 흐름 등을 함께 인식해 검색, 문서 비교, 요약, 질의응답 등의 활용도를 높이는 방식이다.
온더아이티에 따르면 BizOnAI V-OCR은 KDoc-OCRBench 평가에서 종합 83.0%를 기록했다. 비교 대상으로 제시된 olmocr2는 78.9%, Paddle V1.5는 78.4%, DeepSeek OCR V2는 76.8%, GLM OCR은 67.2%를 기록했다. 회사 측은 표 인식과 머리글·바닥글 처리 등 구조 인식 항목에서 강점을 보였다고 설명했다.
이병구 온더아이티 대표는 "한국어 특화 Document OCR 모델과 평가체계를 함께 공개해 성능을 비교·검증할 수 있도록 했다"며 "누구나 성능을 확인하고 재현할 수 있는 검증 기반 마련에 의미가 있다"고 말했다.
온더아이티는 향후 BizOnAI V-OCR을 AI 멀티모달 검색엔진 'BizOnAI V-Search', 문서협업 플랫폼 'BizOnAI V-Drive', LLM 기반 질의응답 솔루션 등과 연계할 계획이라고 밝혔다.

whitss@newspim.com












