• 홈
  • 데일리카
  • 스마트모빌
  • 브랜드모빌
주식회사 패스트뷰
  • 회사소개
  • 개인정보처리방침
  • 청소년보호정책
  • 이메일무단수집거부
  • 사업자등록번호: 619-87-00936
  • 서울시 강남구 강남대로 364, 미왕빌딩 12층 (역삼동 826-21)
  • 대표 : 02-6205-0936팩스: 02-6205-0936대표메일: team@fastviewkorea.com
  • 네이트커뮤니케이션즈㈜는 정보제공업체 또는 정보제작업체가 제공한 상기의 정보와 관련하여 발생한 문제에 대해서 어떠한 책임도 부담하지 않으며, 모든 책임은 각 정보제공업체에게 있습니다.
  • © NATE Communications

“AI가 못 읽는 아래아한글 공문서”… 李대통령도 지적한 HWP 포맷 한계

조선비즈|김수정 기자|2025.12.18

일러스트=챗GPT
일러스트=챗GPT

이재명 대통령이 취임 후 첫 업무보고에서 한컴오피스의 아래아한글(HWP) 형식이 인공지능(AI) 활용에 적합하지 않다며 대책 마련을 주문했다. 정부와 공공기관에서 주로 사용해 온 HWP 문서 형식이 AI 학습에 적합하지 않아 공공 데이터 활용에 장애물로 여겨졌는데, 개선에 대한 논의가 본격화할지 주목된다.

◇ 李대통령 “AI가 못 읽는 아래아한글 데이터… 기술적 해결책 찾아달라”

18일 관련 업계에 따르면 이 대통령은 지난 11일 세종컨벤션센터에서 열린 2026년 업무보고에서 안형준 국가데이터처장의 보고를 받고, 아래아한글의 공공 데이터 호환성 문제를 지적하며 대책 마련을 요구했다.

이 대통령은 “데이터의 중요성이 커지면서 인공지능 사회의 핵심은 결국 데이터”라며 “어떤 양질의 데이터를 만들어 어떻게 활용할 것인지가 중요하다”고 말했다. 이어 “정부 공문서는 데이터 측면에서 가장 양질의 자산인데, 대부분이 아래아한글로 작성되고 각종 기법이 적용되면서 기계가 못 읽는다는 거 아니냐”며 “이걸 어떻게 해결할 것인가”라고 물었다.

이에 안 처장은 “AI가 읽을 수 있도록 표준화를 실시해야 한다”며 “아래아한글을 PDF 파일 등으로 변환해 ‘머신 리더블(Machine Readable)’한 형태로 만들 준비를 하고 있다”고 말했다. 이어 이 대통령은 “PDF로 변환하면 다 읽을 수 있느냐”고 재차 확인했고, 안 처장은 “일반적인 경우는 읽히지만, 불투명한 경우에는 PDF 파일로도 읽히지 않아 기술적으로 또 다른 변환이 필요하다”고 답했다. 이 대통령은 “기술을 충분히 활용하면 방법은 있을 것”이라며 “사람 손으로 할 수는 없고, 기술적인 해결책을 잘 찾아달라”고 주문했다.

이 같은 지적은 AI 시대의 핵심인 양질의 데이터가 정부의 낡은 관행으로 인해 제대로 활용되지 못하고 있는 현실을 대통령이 공식 석상에서 처음으로 짚은 사례다. 데이터의 활용성을 높이기 위해 문서 체계 전반을 근본적으로 개선해야 한다는 강력한 메시지로 해석된다.

◇ 공공 문서 대부분 HWP 형태… “챗GPT도 못 읽어”

현재 정부와 공공기관에서 생산되는 공공 문서는 대부분 HWP 확장자 파일 형태로 유통되고 있다. 위성곤 더불어민주당 의원이 지난 9월 17일부터 10월 6일까지 중앙부처, 광역기초자치단체 공무원을 대상으로 실시한 ‘공공분야 AI 활용 현황’ 설문조사에 따르면 전국 행정기관 종사자 1만4208명 중 91.1%가 보고서·계획서 등 행정문서를 주로 HWP, PDF로 활용한다고 밝혔다. 정부는 공공부문 전산화 초기 국내 소프트웨어(SW) 산업을 육성하기 위해 한컴오피스 사용을 독려했다. 이에 공공기관의 HWP 사용은 의무는 아니지만, 현재까지도 관행이라는 이유로 이어지고 있다.

다만 최근 AI 기술 고도화로 데이터의 중요성이 커지면서, 공공 데이터 활용을 높이기 위해서 개선이 필요하다는 목소리가 높아지고 있다. 공공 문서는 AI 개발사들이 가장 필요로 하는 데이터로 꼽힌다. 정제된 언어로 작성돼 있고, 정책·행정 흐름이 인과관계에 따라 체계적으로 정리돼 있어 국내 정보와 한국어 이해 능력을 높이는 데 최적의 데이터이기 때문이다. 다만 HWP는 보안을 방점에 둔 폐쇄형 문서 포맷으로, AI 학습을 위해 데이터를 추출할 경우 문맥이 깨지거나 의미 없는 2진수 정보만 남아 활용도가 떨어진다는 지적이 이어졌다.

이를 해결하기 위해 한글과컴퓨터는 지난 2021년 한컴오피스 문서 기본 형식을 폐쇄형인 HWP에서 개방형인 HWPX로 변환했다. HWPX는 별도 처리 과정 없이 데이터 분류·추출이 가능한 기계 판독형 문서다. 정부 역시 2021년부터 문서 저장 표준을 HWP에서 HWPX로 전환했다. 다만 현장에서는 여전히 한계가 있다는 지적이 나온다. 이미 HWP로 작성된 과거 문서를 사용하거나, 이용자가 HWPX 버전의 한컴오피스를 사용하지 않으면 데이터 활용에 제한이 있기 때문이다.

글로벌 AI 기업들은 HWP보다 국제적으로 통용되는 문서 형식에 집중하고 있다. 실제 국내에서 가장 많이 사용되는 생성형 AI 챗GPT는 HWP 포맷을 직접 읽지 못해 별도의 변환 과정을 거쳐야 한다. 이 때문에 공공 문서가 HWP 중심으로 생산·유통될 경우, 글로벌 AI 생태계와의 접점이 제한될 수밖에 없다는 지적이 제기된다.

한컴은 HWPX 전환과 기술 고도화로 관련 문제를 개선해나가고 있다는 입장이다. 한컴 관계자는 “현재 기본 저장 포맷인 HWPX는 국제표준을 따르는 XML 기반 구조로 AI 활용에 적합하며, HWP 파일을 HWPX로 변환하는 도구를 무상으로 제공하고 있다”며 “별도 변환 과정 없이도 HWP 바이너리 파일에서 텍스트와 문서 구조 정보를 직접 추출할 수 있는 ‘한컴 데이터 로더’ 기술을 제공하고 있다”고 말했다.

이어 “대규모언어모델(LLM) 학습의 경우 특정 포맷이 기술적으로 불가능하기보다는, LLM 기업의 지원 우선순위와 전략에 따른 시간차 문제”라며 “실제 구글의 제미나이 3.0은 HWPX 뿐만 아니라 HWP 포맷을 지원하는 만큼, 향후 데이터 호환성이 더 높아질 것”이라고 덧붙였다.

  • 미·러, 이번 주말 마이애미서 종전 방안 논의…영토 문제 합의가 관건
  • 계정 삭제에 형사 고소까지… 불법 프로그램에 골머리 앓는 게임사들
  • 마이크론, 또 분기 최대 실적 경신… AI 훈풍에 ‘어닝 서프라이즈’
  • ‘인재 블랙홀’ 된 쿠팡, 평균 근속연수는 3년 안팎
  • 리튬 가격 18개월 만에 최고치… 배터리 소재 업계, 수익성 개선 기대

가격대별 인기 장기 렌트카

  • 20만원대
  • 30만원대
  • 40만원대
  • 50만원대
  • 60만원대
  • 더 뉴 기아 레이(PE)

    기아 더 뉴 기아 레이(PE) 2025년형 가솔린 1.0 2WD 프레스티지 (자동)

    최저가220,250원~

  • 더 뉴 캐스퍼

    현대 더 뉴 캐스퍼 2025년형 가솔린 1.0 2WD 디 에센셜 (자동)

    최저가233,670원~

장기렌트 인기TOP

  • 현대 더 뉴 캐스퍼1

    현대 더 뉴 캐스퍼

    월 212,790 ~

    신차 견적 빠른 상담
  • 르노코리아 그랑 콜레오스2

    르노코리아 그랑 콜레오스

    월 333,188 ~

    신차 견적 빠른 상담
  • 쉐보레 트랙스 크로스오버3

    쉐보레 트랙스 크로스오버

    월 222,700 ~

    신차 견적 빠른 상담
  • 기아 더 뉴 카니발 HEV(KA4 F/L)4

    기아 더 뉴 카니발 HEV(KA4 F/L)

    월 285,000 ~

    신차 견적 빠른 상담
  • 현대 디 올-뉴 그랜저 HEV(GN7)5

    현대 디 올-뉴 그랜저 HEV(GN7)

    월 324,313 ~

    신차 견적 빠른 상담