문서 데이터 AI 전처리…파이뮤PDF 프로, PyPI서 설치 급증
문서 데이터 추출 기술이 인공지능 학습용 데이터 구축 시장의 기반 인프라로 부상하고 있다. 국내 기업 이파피루스가 개발한 파이뮤PDF 프로는 파이썬 환경에서 문서 구조를 직접 분석해 데이터를 추출하는 방식으로, 기존 비전 언어 모델 기반 솔루션 대비 속도와 비용 경쟁력을 앞세우고 있다. 업계에서는 생성형 AI 서비스 확산 속에서 문서 기반 데이터 전처리 시장 주도권을 둘러싼 경쟁이 본격화되는 분기점으로 보고 있다.
이파피루스는 11일 자사 문서 데이터 추출 라이브러리 파이뮤PDF 프로의 올해 다운로드 수가 지난해 연간 대비 5배 이상 증가했다고 밝혔다. 파이썬 개발자용 패키지 저장소인 PyPI 기준 1월부터 11월까지 누적 다운로드는 약 2억2000만 회로 집계됐다. 작년 1월부터 12월까지 합산된 4400만 건을 크게 웃도는 수치다. 특히 9월을 기점으로 증가세가 가팔라져 10월과 11월 두 달간 다운로드만 1억2000만 회에 이른 것으로 나타났다.

파이뮤PDF 프로는 AI와 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 처리할 수 있도록 설계된 문서 데이터 추출 라이브러리다. 김정아 이파피루스 부사장은 파이뮤PDF 프로가 문서 내 페이지와 좌표 같은 메타데이터를 포함한 청크를 생성하고, 이를 LLM과 RAG에 적합한 제이슨과 마크다운, 라마인덱스 리더 포맷으로 출력할 수 있다고 설명했다. AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 특화된 구조라는 설명이다.
기존 AI 전처리 시장에서 널리 사용되는 문서 데이터 추출 솔루션은 문서를 고해상도 이미지로 변환한 뒤, 비전 언어 모델을 통해 텍스트와 레이아웃을 인식하는 방식을 주로 활용해 왔다. 이미지 인식 정확도가 높아지는 장점은 있지만, 대용량 문서 처리 시 그래픽처리장치 의존도가 높고 처리 속도가 느려지는 한계가 지적돼 왔다.
이와 달리 파이뮤PDF 프로는 자체 개발한 머신러닝 기반 레이아웃 분석기를 활용해 문서 구조를 직접 파악한 뒤 데이터를 추출한다. 텍스트와 단락, 표, 이미지 등의 논리적 구조를 우선 인식해 데이터로 변환하는 구조다. 이파피루스는 이러한 구조 기반 추출 방식 덕분에 VLM을 사용하는 글로벌 유사 제품에 비해 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다고 강조한다. 특히 테두리가 없거나 병합 셀을 포함한 표, 스캔 이미지와 디지털 텍스트가 혼합된 복잡한 문서에서 정확도와 속도 모두에서 강점을 보인다는 설명이다.
시장 적용 영역은 LLM 학습 데이터 구축과 기업 내부 문서 자동화가 중심 축으로 떠오르고 있다. LLM과 RAG 기반 검색 시스템은 문서 내 문맥 단위 청크를 얼마나 정교하게 나누고, 메타데이터를 얼마나 풍부하게 부여하느냐에 따라 응답 품질이 갈린다. 페이지 정보, 위치 좌표, 문단 단위 구분 등이 함께 라벨링된 데이터는 검색 정확도를 높이고, 환각 문제를 줄이는 데 도움이 된다는 평가다. 기업 입장에서는 계약서, 보고서, 매뉴얼 등 사내 문서를 안전하게 전처리해 사내용 AI 어시스턴트나 지식 검색 시스템에 활용하는 수요도 커지고 있다.
인프라 측면에서도 차별점이 부각된다. 파이뮤PDF 프로는 GPU가 필수인 VLM 기반 솔루션과 달리 CPU만으로 동작하도록 설계됐다. 고성능 GPU 서버를 별도로 마련하지 않아도 되기 때문에 중소기업이나 개발 초기 단계 스타트업도 상대적으로 낮은 비용으로 대규모 문서 처리 파이프라인을 구축할 수 있다. 추출 대상 문서 포맷도 PDF와 MS오피스, 한글 문서, 이미지 등 다양한 형식을 지원해 기존 문서 자산을 광범위하게 활용할 수 있는 구조다.
글로벌 경쟁 구도에서도 데이터 추출 정확도와 처리 효율성을 둘러싼 경쟁이 치열해지는 흐름이다. 미국과 유럽에서는 문서 인식과 이해를 위한 다국적 솔루션들이 VLM 고도화와 클라우드 연계를 앞세워 시장을 확대하고 있다. 이런 가운데 파이뮤PDF 프로는 레이아웃 기반 ML 엔진과 CPU 지향 구조를 내세워 차별화 전략을 취하는 모습이다. 이파피루스 측은 오픈AI, 오라클, 보쉬, DHL, 도큐싸인, 슈나이더일렉트릭 등 글로벌 기업들이 파이뮤PDF 프로를 도입해 성능을 인정하고 있다고 밝혔다.
AI 학습용 데이터와 문서 기반 서비스가 의료, 금융, 제조 등 규제가 엄격한 산업으로 확산되면서, 전처리 단계의 품질과 투명성 요구도 함께 높아지고 있다. 문서 구조를 보존한 채 데이터를 추출하면, 이후 감사나 규제 대응 과정에서 원본 대비 변형 정도를 추적하기 용이하다는 점도 경쟁 요소로 부각되고 있다. 동시에 개인정보와 기밀정보 마스킹, 데이터 보관 정책 등 규제 이슈를 고려한 기능 고도화 필요성도 커지고 있다.
전문가들은 대규모 언어 모델 경쟁이 본격화될수록, 학습과 검색에 사용되는 문서 데이터의 정제 품질이 기술 격차를 좌우할 것으로 본다. 산업계는 파이뮤PDF 프로와 같은 문서 전처리 솔루션이 실제 서비스 품질과 비용 구조를 얼마나 개선할 수 있을지, 그리고 AI 인프라 재편 과정에서 어떤 위치를 차지하게 될지 주시하고 있다.
