HWP도 바로 AI 학습용으로…사이냅소프트, 공공문서 구조화 제안
인공지능 기반 행정혁신을 위한 공공데이터 개방이 속도를 내는 가운데, 정부가 제시한 공문서 PDF 변환 중심 전략이 AI 활용 측면에서 비효율을 키운다는 지적이 나온다. 특히 공공문서의 상당 비중을 차지하는 HWP가 이미지 기반 PDF로 저장될 경우, 다시 텍스트를 추출해야 하는 이른바 이중 작업이 발생해 데이터 품질과 비용 효율을 떨어뜨리는 구조로 보인다. 문서 AI 기업 사이냅소프트가 HWP 원본을 직접 분석해 구조화하는 솔루션을 내세우며, 공공문서 데이터 개방 방식 전환을 촉구하는 배경이다.
사이냅소프트는 19일 자사 문서 구조 분석 솔루션 사이냅 도큐애널라이저를 통해 HWP를 포함한 다양한 공공·기업 문서를 별도의 PDF 변환 없이 곧바로 AI 학습용 데이터로 추출할 수 있다고 밝혔다. 정부가 공문서를 통합 포맷으로 묶어 개방하려 할 때 필연적으로 따라붙는 포맷 변환 비용과 품질 저하 문제를 기술적으로 우회하는 셈이다.

사이냅 도큐애널라이저는 복잡한 문서 구조를 기계가 읽을 수 있는 형태로 변환하는 문서 AI 플랫폼이다. 아래아한글 HWP와 차세대 포맷인 HWPX는 물론, 마이크로소프트 오피스의 워드 DOC·DOCX, 엑셀 XLS·XLSX, 파워포인트 PPT·PPTX와 공공기관 개방형 포맷 ODT, TXT까지 원본 상태 그대로 구조를 분석한다. 여기에 PDF와 이미지 파일까지 광학문자인식과 문서 스타일 인식 기술을 결합해 텍스트와 레이아웃 정보를 함께 추출하는 구조다.
특히 이번 기술은 기존 단순 OCR 위주의 문서 처리 방식 한계를 넘어서려는 시도가 특징이다. 도큐애널라이저는 글자 단위 추출에 머무르지 않고 문단 정보, 표 구조, 이미지와 도형 객체, 본문과 각주, 머리말과 꼬리말 등 문서 내 요소들을 논리 단위로 식별한다. 이어 문서 제목, 작성자, 작성일, 수정일 같은 메타데이터와 문서 속성까지 함께 추출해 데이터 이력 관리와 신뢰성 검증에 활용할 수 있게 구성했다.
이렇게 정제된 결과물은 AI 학습과 데이터베이스 구축에 바로 투입할 수 있도록 네 가지 머신 리더블 포맷으로 자동 변환된다. 마크다운은 가벼운 문서 요약과 검색 시스템 구축에, JSON과 XML은 대규모 데이터 파이프라인 및 API 연계에, LaTeX는 수식과 표가 많은 기술 문서 재구성에 적합한 형태로 설계돼 있다. 특히 복잡한 표 구조나 다단 편집 문서도 읽기 순서를 인식해 레이아웃을 재구성할 수 있어, 거대언어모델 학습 전 별도의 수작업 전처리를 크게 줄일 수 있다는 설명이다.
공공 부문에서는 HWP 비중이 절대적인 만큼, 이러한 접근은 데이터 개방 전략 전반에 영향을 줄 수 있다. 현재 정부 안처럼 HWP를 일괄 PDF로 변환해 개방할 경우, 후속 AI 활용 단계에서 민간과 연구기관이 다시 OCR을 수행해야 해 비용과 시간이 중복 투입된다. 반면 원본 HWP와 HWPX를 직접 구조화해 제공할 경우, 검색 정확도와 모델 학습 효율을 높일 수 있다. 특히 수십 년 치 행정 문서가 누적된 중앙부처와 지자체, 공공기관의 경우, 대량 데이터 이관과 정비 과정에서 구조화 자동화 여부가 디지털 전환 속도를 좌우하는 변수가 될 수 있다.
글로벌 시장에서는 이미 문서 AI와 데이터 구조화 경쟁이 본격화된 상태다. 북미와 유럽에서는 계약서, 의료기록, 특허 문서 등 비정형 문서를 AI로 자동 분류·요약하는 솔루션이 확산되는 추세다. 국내에서는 HWP라는 특수 포맷이 추가로 존재해 글로벌 범용 솔루션만으로는 처리 품질이 떨어질 수 있다는 점에서, HWP의 내부 구조와 스타일 정보를 정밀 분석하는 국산 엔진의 전략적 가치도 커지고 있다.
사이냅소프트는 도큐애널라이저를 한국주택금융공사 등 공공기관과 디스플레이, 시스템, 건설 등 대기업에 공급하며 공공·제조·금융 영역으로 적용 범위를 넓히고 있다. 최근에는 협업툴 기업 토스랩 잔디에 기술을 제공하면서 일반 기업용 서비스형 소프트웨어 시장에도 진입했다. 협업 플랫폼에 쌓이는 회의록, 보고서, 업무 지시 문서를 자동 구조화해 지식 검색과 사내용 LLM에 활용하려는 수요를 겨냥한 행보다.
공공데이터 정책·규제 측면에서는, 문서 원본을 어느 수준까지 개방하고 어떤 구조로 변환할지에 대한 기준이 아직 미세하게 정리되지 않은 상황이다. 포맷 변환 과정에서 메타데이터 손실이 발생할 경우, 행정기록 관리 기준과 상충할 수 있다는 우려도 있다. 동시에 개인정보와 기밀 정보가 포함된 문서를 AI 학습용으로 활용할 때 비식별화와 접근 통제 기준을 어떻게 설정할지에 대한 논의도 필요해 보인다.
전경헌 사이냅소프트 대표는 정부의 공공데이터 개방 방향과 맞물린 문서 구조화 수요에 주목한다. 전 대표는 데이터 혁신의 관건을 비정형 문서를 정형 데이터로 전환하는 속도와 정확도라고 규정하면서, 도큐애널라이저가 공공과 기업이 AX로 불리는 자동화 경험을 구현하는 데 필요한 시간과 비용을 줄일 수 있는 수단이 될 것이라고 전망했다.
산업계에서는 HWP를 포함한 다양한 레거시 문서 포맷이 얼마나 빠르게 AI가 이해할 수 있는 구조화 데이터로 전환되느냐가 공공데이터 개방 효과를 좌우할 것으로 보고 있다. 결국 문서 포맷 표준화와 데이터 구조화 기술, 개인정보 보호 규제가 맞물려야 공공문서 개방이 실제 AI 서비스 혁신으로 이어질 수 있다는 지적도 나온다.
