logo
“오픈소스 PDF AI 툴”…한컴, 듀얼랩과 글로벌 개발 협력 본격화
IT/바이오

“오픈소스 PDF AI 툴”…한컴, 듀얼랩과 글로벌 개발 협력 본격화

박선호 기자
입력

인공지능(AI)과 오픈소스 생태계를 접목한 PDF 데이터 추출 기술이 글로벌 SW 산업의 혁신 흐름을 주도하고 있다. 한글과컴퓨터(이하 한컴)는 9일 글로벌 PDF 오픈소스 강자인 듀얼랩과 협력해 ‘오픈 PDF 데이터 로더’ 공동 개발에 나서며, 전통 문서 솔루션 기업에서 AI·오픈소스 플랫폼 기업으로의 전환을 공식화했다. 업계에선 이번 협약이 오픈소스 기반 PDF 데이터 처리 시장의 경쟁 본격화를 알리는 신호탄으로 평가한다.

 

양사가 추진하는 오픈 PDF 데이터 로더는 PDF 문서의 텍스트·표·이미지 등 다양한 데이터를 신속하고 정밀하게 추출하는 소프트웨어 개발 도구(SDK)다. 한컴은 세계 최고 수준의 데이터 추출 성능과 다양한 AI 모델 연동이 가능한 구조를 앞세워 글로벌 시장에서의 기술 위상을 강화할 방침이다. 듀얼랩은 PDF 표준 전문 협회 정회원으로, 국제적으로 인정받는 오픈소스 PDF/A 검증 도구 ‘베라PF’ 개발을 주도한 기업이다. 한컴은 듀얼랩의 오픈소스 기술력과 해외 네트워크를 활용해 신제품을 시장에 안정적으로 안착시키고, 현지 파트너·커뮤니티와 협업 범위를 확장하겠다는 전략을 내세운다.

기술적으로 이번 PDF 데이터 로더는 AI 기반 광학문자인식(OCR)과 구조적 데이터 인식 기능을 통합, 기존 문서처리 SW 대비 추출 정확도와 자동화 범위를 대폭 끌어올린 것이 핵심이다. 예를 들어 기존 PDF 해독 도구들은 한글·표·차트 등 복합 객체 인식에 한계가 있었으나, 신제품은 최신 AI 인식 엔진을 도입해 표, 이미지, 수식 등도 실시간 추출이 가능하다. 이로써 검색증강생성(RAG), 거대언어모델(LLM) 연동 등 AI 산업 현장에 바로 적용할 수 있도록 설계됐다는 분석이다.

 

시장 측면에선 오픈소스 PDF 데이터 추출이 개발자·스타트업·기업 IT 플랫폼 등 다양한 사용자의 문서 데이터 가공·분석 효율을 극대화할 것으로 기대되고 있다. 특히 기업 내 문서 데이터 보안 문제나 특화 문서 포맷 지원에 대한 수요가 꾸준히 증가하는 만큼, 오픈소스 생태계 기반 협업을 통해 시장 전체의 혁신 저변을 넓힐 가능성도 주목된다. 해외에서는 이미 ‘허깅페이스’ 등 주요 AI 오픈소스 호스팅 플랫폼에서 관련 PDF 기술 경쟁이 치열하게 벌어지고 있다.

 

경쟁 구도에서는 미국·유럽의 오픈소스 문서 처리 프로젝트와의 협력·경쟁이 동시에 진행 중이다. 듀얼랩이 강점을 지닌 글로벌 PDF/A 인증 호환성과 한컴의 AI 융합 추출 기술이 결합되면서, 국내 기업 최초로 세계 시장에서 ‘AI 기반 PDF 데이터 추출 오픈소스 표준화’ 주도권을 차지할지 주목된다.

 

정책·비즈니스 프레임에서는 한컴이 ‘오픈코어’ 전략을 도입, PDF 데이터 추출 SDK를 무료 공개하면서도 고도화된 AI 기능(예: 고정밀 OCR, 표·수식·차트 인식 등)은 별도 상용 애드온 형태로 제공해 수익화하는 지속 가능한 사업모델을 구축키로 했다. 오픈소스 개발자 및 사용자는 자유롭게 코어 기술에 접근하고, 기업 및 특수 수요자는 추가 기능을 유료로 선택할 수 있는 모델이다. AI 및 오픈소스 기반 기술의 윤리·데이터 보안 적합성 확보 역시 글로벌 시장 진입의 필수 요건이 될 전망이다.

 

전문가들은 한컴의 이번 행보가 국내 SW 기업이 오픈소스·AI 기술 트렌드를 선도하며, 글로벌 데이터 가공 시장에서 새로운 성장 동력을 확보하는 분기점이 될 것으로 보고 있다. 산업계는 한컴·듀얼랩의 오픈소스 PDF AI 기술이 전 세계 개발 생태계와 실제 서비스 현장에 안착할 수 있을지 주시하고 있다.

박선호 기자
share-band
밴드
URL복사
#한컴#듀얼랩#오픈pdf데이터로더