logo
“PDF 데이터 추출 AI 오픈소스”…한컴, 글로벌 생태계 확장 신호
IT/바이오

“PDF 데이터 추출 AI 오픈소스”…한컴, 글로벌 생태계 확장 신호

송다인 기자
입력

한글과컴퓨터가 인공지능(AI) 자료 학습의 고질적 병목으로 꼽혀온 PDF 문서 데이터 처리 문제를 푸는 기술을 글로벌 오픈소스로 공개했다. 한컴이 17일 배포한 ‘오픈데이터로더 PDF’는 텍스트, 표, 이미지, 레이아웃 등 PDF 파일 내부 정보를 체계적으로 추출해 AI 학습에 바로 쓸 수 있는 데이터(JSON, Markdown, HTML)로 변환하는 엔진이다. 회사 측은 PDF 문서를 AI 학습에 활용하는 과정에서 발생하는 비정형 데이터 구조, 읽기 순서 오류 등을 실시간으로 보정하면서, 공식 홈페이지에 공개된 벤치마크 지표 NID(Normalized Indel Distance)에서 85%로 높은 성능을 기록했다고 강조했다.

 

이번 기술은 한컴이 지난 7월 PDF 기술 전문 듀얼랩과 공동 개발 협약(MOU)을 맺고, 축적된 문서 처리 노하우와 오픈소스 기반 엔진을 결합해낸 결과물이다. 특히 기존 PDF 데이터 로딩 과정보다 높은 정교함과 다양한 출력 포맷 활용성을 검증받으면서, 글로벌 AI 개발자 생태계에서 실효성도 주목받고 있다. 텍스트·표 구조 등 복합 데이터가 많은 PDF 파일을 효율적으로 해체한 뒤 AI 플랫폼에 투입할 수 있다는 점에서, 챗GPT·제미나이·랭체인 등 주요 대형 언어모델(LLM) 프레임워크와의 연동성 역시 앞세웠다.

글로벌 오픈소스 소프트웨어 경쟁이 심화되는 가운데, 한컴은 깃허브(GitHub) 기반의 개발자 협력 및 상시 기술 고도화 전략을 추진한다. 이를 통해 국내외 기업·기관이 필요로 하는 다양한 AI·문서 처리 프로젝트에 엔진을 접목시키는 한편, 연말에는 AI 기반 문서 인식(Optical Character Recognition, OCR) 등 차세대 기능도 추가할 계획이다.

 

이 같은 시도는 마이크로소프트·구글 등 글로벌 IT 기업들이 AI 학습용 대규모 데이터 확보를 위해 오픈소스 커뮤니티와 협업을 확대하는 흐름과도 궤를 같이한다. 미국, 유럽에서도 이미 PDF 등 비정형 문서의 정형화·데이터화 경쟁이 본격화되는 모습이다.

 

관련 업계에선 신용평가, 법률, 공공기록 등 각종 PDF 문서의 효율적 처리와 윤리적 데이터 활용까지 동시에 요구되는 만큼, 오픈소스 소프트웨어의 보안·저작권 관리, 데이터 품질 검증 등 제도적 지원도 필요하다는 목소리가 나온다. AI 학습 과정에서 개인정보 비식별화, 데이터 소유권 이슈 등도 논의 대상으로 부상했다.

 

정지환 한컴 CTO는 “AI 전환(AX) 시대 오픈소스는 선택이 아닌 경쟁력의 핵심”이라며 “글로벌 개발자와 공동 기술 발전을 통해 AI 데이터 추출 분야를 선도하겠다”고 했다. 산업계는 이번 기술이 실제 시장에 안착할 수 있을지 주시하고 있다.

송다인 기자
share-band
밴드
URL복사
#한컴#오픈데이터로더pdf#ai학습