IT/바이오

“PDF 데이터 AI로 뚫는다”…한컴, 랭체인 공식 컴포넌트 등극

이도윤 기자
입력

한글과컴퓨터가 개발한 PDF 데이터 추출 기술이 글로벌 인공지능 개발 프레임워크 '랭체인'의 공식 컴포넌트로 채택됐다. 이는 대규모 언어 모델(LLM) 기반 AI 개발에 있어 문서 데이터 처리 효율을 비약적으로 높이며, 전 세계 AI 생태계 내 핵심 인프라 중 하나로 자리매김할 전망이다. 업계는 이번 채택을 한컴의 기술 경쟁력이 글로벌 AI 플랫폼 핵심 기술로 공식 인정받은 분기점으로 평가하고 있다.

 

랭체인은 챗GPT 등 생성형 AI 모델을 활용한 다양한 서비스를 구축하는 데 사실상의 표준으로 자리 잡은 오픈소스 프레임워크다. 수십만 명의 글로벌 AI 개발자들이 사용하고 있으며, 랭체인 생태계 내 공식 컴포넌트 등록은 기술력과 안정성 검증을 동시에 의미한다. 한컴은 이번에 '오픈데이터로더 PDF'가 랭체인 도큐먼트 로더 PDF 파트에 공식적으로 채택되면서, 지난해 9월 해당 기술을 깃허브에 오픈한 이후 약 6개월 만에 글로벌 실전 플랫폼에 합류하게 됐다.

'오픈데이터로더 PDF'의 특징은 AI 학습과 응용 과정에서 병목지점이던 PDF 내 텍스트, 표, 이미지 데이터를 신속하면서도 정밀하게 추출해주는 데 있다. 기존 기술 대비 데이터 변환 정확도를 높이고, 다양한 언어와 문서 유형에도 바로 적용할 수 있어 AI 모델의 ‘실질적 학습 자원 확보’라는 맥락에서 실효성이 높다는 평가를 받는다. 특히 랭체인 공식 컴포넌트로 연동되면서, 글로벌 개발자들이 코드 수준에서 바로 이 기술을 활용할 수 있게 됐다.

 

PDF 데이터 추출 기술은 단순 자동화에서 나아가, 생성형 AI의 실제 활용 단계 진입을 가속하는 필수 요소로 부상했다. 미국, 유럽 등 글로벌 AI 플랫폼들은 이미 문서 데이터 처리 툴 내재화 경쟁을 심화하고 있으며, 한컴의 기술이 공식 프레임워크에 채택되면서 국내 기업 중에서는 보기 드문 글로벌 오픈 소스 생태계 안착 사례가 됐다.

 

기술이 공식 채택되기까지는 코드의 개방성뿐 아니라, 보안성·정확성·호환성이 핵심 검증 포인트로 작용했다. 국내외 사례를 비교할 때, 자사 독자 기술이 글로벌 AI 프레임워크의 표준 구성을 담당하는 것은 기술력·시장성 양 측면에서 이례적이다. 미국, 유럽의 주요 SaaS 기업들 역시 문서 데이터 처리 자동화 기능을 확대하는 등 관련 시장 주도권 경쟁이 본격화되고 있다.

 

한편 국내외 AI 업계에서는 이번 채택이 ‘데이터 활용의 민주화’를 앞당기는 상징적 계기로 풀이된다는 평가다. 업계 전문가들은 앞으로 AI 개발과정에서 비정형 문서 데이터 처리 패러다임이 한층 더 고도화될 것으로 내다보고 있다. 산업계는 이번 기술이 실제 시장에 안착할 수 있을지 주시하고 있다.

이도윤 기자
share-band
밴드
URL복사
#한컴#랭체인#pdf데이터추출