미국·EU는 ‘읽히는 문서’ 만든다…한국만 독자 포맷 고수 [HWP 족쇄③]

AI는 ‘데이터 먹는 하마’다. 고품질 데이터 없이는 초거대 언어모델(LLM)도, 검색증강생성(RAG) 시스템도 제대로 학습할 수 없다. 이를 이유로 주요 선진국 정부는 문서 데이터에서부터 AI 시대의 경쟁력을 키우고 있다. 특히 공공부문 문서 포맷을 기계가 읽을 수 있는 국제표준으로 전환하는 작업은 이미 10년 이상 앞서 있다는 평가다.

주요 선진국은 공공데이터 전략의 핵심 가치로 ‘개방성’을 내세우며 AI 시대에 선제 대응한다. 전문가들은 한국이 AI 강국으로 도약하기 위해선 특정 소프트웨어 의존도를 줄이고 문서 포맷의 국제적 상호운용성 확보가 선결 과제라고 지적한다.

미국, 유럽연합(EU), 영국 등은 정부 문서 저장 및 유통 포맷을 일찍이 국제표준(ISO)에 부합하는 개방형 형식으로 전환했다. EU는 2010년대부터 공공문서에 ODF(Open Document Format)를 적용해 접근성을 높였다.

미국 행정관리예산처는 PDF와 DOCX 등 범용 포맷 사용을 기본 원칙으로 삼고 있다. 미 상무부 산하 데이터 거버넌스 위원회는 올해 1월 개방형 데이터 활용 가이드라인을 발표하고 AI 학습용 데이터 전환을 주요 과제로 제시했다. 문서에 영구 식별자(PID)를 부여하고, 사람과 기계가 모두 읽을 수 있는 포맷 사용, 상세한 메타데이터 기록 등을 통해 기계 판독성과 데이터 재사용성을 높이겠다는 취지다.

우리나라도 2021년부터 개방형 포맷 도입을 시작했다. 행정안전부에 따르면 오픈포맷 데이터 비중은 8.7%에서 올해 2월 기준 98.6%까지 확대됐다. 그러나 실제로는 HWP·HWPX 포맷의 의존도가 여전히 높다. 접근성과 활용성이 떨어진다는 지적이 나온다.

우리나라 문서 소프트웨어 시장에서는 MS오피스가 약 70%, 한컴 오피스가 약 30%의 점유율을 차지하는 것으로 추정된다.

HWPX는 국제표준이 아니며, 오픈소스 생태계에서의 지원도 미미하다. 변환 도구나 학습용 가공툴이 부족해 민간 기업과 연구기관은 여전히 한컴의 유료 솔루션이나 매크로 방식에 의존하고 있다.이를이유로 업계에선 공공기관에 방대한 전자문서가 축적돼 있음에도 AI 경쟁력을 뒷받침할 고품질 데이터 확보에는 한계가 있다고 평가하고 있다.

전자문서 업계 관계자는 “정부의 개방률은 높지만 민간에서 실질적 활용도는 낮다”며 “한글 포맷은 단순 텍스트 추출은 오픈소스로도 가능하지만, AI 학습용 데이터로 전환하려면 한컴의 유료 솔루션에 의존할 수 밖에 없다”고 말했다.

문서 작성 문화 차이도 구조화 어려움의 한 원인이다. 최영철 한국디지털문서플랫폼협회장은 “해외는 텍스트 중심의 서술형 문서가 일반적이지만, 한국 공공문서는 결재 중심이고 복잡한 표·도표를 많이 포함한다”며 “기술보단 문화적 특성이 데이터 전환의 가장 큰 허들”이라고 말했다.그는 “단순 포맷 전환이 아닌, 업무 맥락과 문서 생산 방식 전체를 개편하는 전략이 필요하다”고 강조했다.

행정안전부는 올해부터 수요가 높은 분야 중심으로 비정형 공공문서를 정제·가공해 AI 학습용으로 제공하는 계획을 세웠다. 문서 구조와 메타데이터를 포함한 고정밀 데이터셋을 별도로 구축하겠다는 구상이다. 하지만 여전히 관행 중심 문서 시스템, 폐쇄적인 포맷 생태계는 구조적으로 남아 있다.

최영철 협회장은 “전자문서, 데이터, AI 융합이 본격화되면 문서 포맷의 개방성과 확장성은 중요한 고려 요소가 될 것이다”라며 “한국 전자문서 산업의 경쟁력은 기술 보유 자체보다 이를 어떻게 적용·확산시키느냐는 실천적 역량에 달려 있다”고 말했다. 그는 이어 “이는 AI 기반 행정 전환에서도 전략적 우위를 결정할 수 있다”고 말했다.

천선우 기자
swchun@chosunbiz.com

미국·EU는 ‘읽히는 문서’ 만든다…한국만 독자 포맷 고수 [HWP 족쇄③]

가격대별 인기 장기 렌트카

장기렌트 인기TOP