경제

“AI 학습용 PDF 처리엔진 오픈소스 공개”…한글과컴퓨터, 데이터 추출 병목 해소 나섰다

한글과컴퓨터가 17일 AI 학습 및 활용 현장에서 난제로 지적된 PDF 문서 데이터 처리 병목 현상을 해소하기 위한 PDF 데이터 추출 엔진 ‘오픈데이터로더 PDF’를 전 세계에 오픈소스 기술로 공개했다. 시장에서는 전통적으로 데이터 추출이 까다로운 PDF 포맷의 벽을 넘어, 인공지능 학습 효율화와 데이터 활용 저변 확대에 기여할 기술로 주목하고 있다.

한컴과 PDF 기술 전문기업 듀얼랩이 공동 개발한 이번 엔진은 텍스트, 표, 이미지, 레이아웃 등 문서 내 주요 정보를 빠르고 정확하게 추출할 수 있도록 설계됐다. 특히 AI 학습용 정형 데이터로 바로 변환 가능해 글로벌 AI·데이터 산업에서 경쟁력 제고 효과가 기대된다.

한컴에 따르면 오픈데이터로더 PDF는 NID(문서 읽기 순서 평가 지표) 기준 벤치마크 테스트에서 기존 기술 대비 85%에 달하는 정확도를 기록했다. 별도의 네트워크 없이 오프라인 상태에서도 작동해 금융권, 공공기관 등 데이터 보안이 중시되는 분야에도 안정적으로 적용 가능하다.

업계에선 보안 기능 강화를 통한 프롬프트 인젝션 등 악의적 위협 자동 감지·차단, 챗GPT·제미나이·랭체인 등 주요 AI 프레임워크와 호환성 확보 등도 긍정적으로 평가된다. 한컴은 앞으로 깃허브 등 글로벌 개발자 커뮤니티와의 협업을 확대하며 오픈소스 생태계 확산에 기여한다는 방침이다.

전문가들은 오픈소스를 통한 기술 고도화, 데이터 처리 효율성 증대가 글로벌 AI 경쟁에서 중요한 변수가 될 것으로 해석하고 있다.

이 기술은 기존 PDF 데이터 활용에 따른 한계와 비효율을 극복하며, 향후 각국의 디지털 전환 정책과 AI 인프라 구축에도 파급 효과가 예상된다.

향후 정책 방향 및 시장 평가는 AI·데이터 산업의 성장세, 보안 이슈, 개발자 생태계 반응 등에 따라 달라질 전망이다.

정재원 기자

[email protected]