![]() |
한글과컴퓨터가 만든 국내 대표 한글 문서 작업 프로그램 '아래아 한글'이 인공지능(AI) 시대 한국의 경쟁력 강화를 위한 핵심 자산으로 주목 받는다.
한글의 문서 포맷 HWP과 HWPX가 AI 학습에 걸림돌이 된다는 지적이 있지만 국제 기준과 비교해 차이가 없다는 목소리가 높다. MS를 비롯한 일부 기업들이 세계 시장을 잠식하는 과정에서 한국은 한컴의 독자 문서 포맷 덕분에 데이터 주권을 수호했고 한컴의 방대한 한국어 문서 데이터는 국가대표 AI 학습 역량 강화에 기여할 수 있다는 관측이다.
정부는 최근 글로벌 수준의 독자 AI 모델 개발을 위해 5개 정예팀을 선정했다. 네이버클라우드, 업스테이지, SK텔레콤, 엔씨소프트의 NC AI, LG AI연구원이 그 주인공이다. 한글과컴퓨터는 LG AI연구원 컨소시엄의 멤버로 프로젝트에 합류하면서 30년 이상 갈고닦은 한글 문서 기술을 AI 시대에도 활용할 길을 열었다.
AI 모델 개발에서 가장 중요한 것은 데이터다. 특히 한국어 데이터를 얼마나 확보하고 가공할 수 있느냐가 소버린 AI(국가 주권형 AI) 구축의 성패를 좌우한다. 해당 데이터 활용의 핵심이 될 수 있는 국내 공공문서는 한글 파일의 HWP, HWPX 형식으로 축적돼 있다. 일각에서는 해당 포맷의 폐쇄성이 AI 학습을 어렵게 한다고 지적한다. 데이터 추출을 위해 HWP, HWPX는 PDF로 한 번 더 변환해야 하는 수고로움이 따르는 만큼 이를 개선해야 한다는 취지다.
하지만 PDF 역시 인쇄용 형식으로 텍스트뿐만 아니라 이미지를 많이 포함하고 있어 바이너리 파일로 분류되며 AI 학습에도 적합하지 않다는 게 정설이다. 바이너리 파일이란 숫자 0과 1의 이진법 형태로 처리한 파일로 텍스트 파일과 구분된다. JPG, GIF 등 이미지 파일이나 HWP, DOC, PDF 등 문서 파일처럼 컴퓨터에서 동작하는 프로그램 대부분은 바이너리 파일이다.
데이터 추출 시 PDF 변환을 하는 까닭은 데이터 추출의 정확성은 높지 않지만 오픈소스나 다른 다양한 PDF 데이터 추출 도구들을 활용할 수 있기 때문이다. 어떤 파일 포맷이든 변환 없이 곧바로 데이터를 추출하는 것이 정확성을 높일 수 있으며 HWP, HWPX도 PDF로의 변환없이 곧바로 데이터를 추출하는 것이 가장 데이터 정확도가 높다. 데이터 추출이 쉽지 않아 AI가 잘 인식하지 못하는 HWP, HWPX를 PDF로 바꿔야 한다는 주장은 설득력이 떨어진다는 시각이 많다.
한글의 문서포맷이 아니라 문서작성 방식의 영향이 크다는 말도 나온다. 해외에서는 텍스트를 중심으로 문서를 작성하는 분위기지만 국내 공공문서 작성은 표와 도표를 많이 사용해 데이터 구조가 복잡하다는 것이다. 한국 특유의 공공문서 작성 문화로 데이터 구조화가 어려운 실정이다.
데이터 추출이 어려운 바이너리 기반 문서 포맷은 전 세계가 모두 사용한 만큼 한글 파일만의 문제로 치부하기 어렵다는 게 중론이다. 한컴이 개발한 개방형 문서포맷 HWPX의 AI 학습 데이터 추출 수준도 국제표준인 MS와 오픈소스 오피스 문서포맷과 차이가 없다.
한글 파일 호환 미온적인 MS, 국내 시장 신경 안 써… 한컴의 오래된 누명, AI 데이터 추출과 뒤섞여
![]() |
한글 파일이 AI 학습에 있어 걸림돌이 된다는 주장은 그동안 제기돼온 호환성 문제에 기인한다. 한글 파일 자체는 국제문서 포맷과 호환성에 문제가 없지만 MS오피스는 한글과의 호환성을 반영하지 않고 있다. 한컴오피스 고객들은 MS오피스로의 전환이 문제가 없지만 전 세계 90%, 국내 70%를 차지하는 MS오피스 사용자들은 한글 파일로의 전환이 어려운 것이다. 글로벌 소프트웨어 기업 입장에서 미미한 한국 시장을 위해 별도의 업데이트를 진행할 유인이 없는 탓이다.
한글 파일의 호환성이 부족하다는 고정관념이 점차 강화되고 왜곡돼 AI 데이터 추출 역시 어려울 것이란 생각이 자연스레 고착화됐다는 것이다. SW업계 관계자는 "그동안 누적돼온 한글 파일에 대한 인식이 AI 데이터 이슈에서 뒤섞인 것 같다"고 말했다.
오히려 국내 기술 기반의 자국 문서포맷을 활용한다는 점은 데이터 주권 수호라는 측면에서 의미가 크다. 공공문서 데이터를 MS나 해외에 의존하지 않고 자국 기술로 관리할 수 있어 AI 학습과정에서 외국 기업 종속을 막을 수 있다. AI 강국 도약 과정에서 데이터 독립성을 확보할 수 있는 중요한 발판이 되는 셈이다.
구글이 장악한 포털 시장이지만 한국의 네이버가 굳건한 것처럼 한컴 역시 이러한 역할을 담당해왔다. 최영철 한국디지털문서플랫폼 협회장은 "전 세계적으로는 구글이 (포털 시장을) 장악하고 있지만 국내에는 네이버가 있다"며 "워드 프로세서 역시 MS 워드가 기업이나 일반 민간 분야에서 대부분 쓰이지만 공공에서는 아래아 한글이 시장을 유지하고 그에 따른 긍정적인 효과도 있다"고 했다.
이어 "그런 부분을 감안했을 때 AI 전환 시대라고 해서 문제가 많다라는 해석은 상황을 결과론적으로만 보는 것"이라고 부연했다.
한컴은 과학기술정보통신부가 주관하는 '독자 AI 파운데이션 모델 프로젝트'에 최종 선정되며 한국형 초거대 AI 모델 'K-EXAONE(K-엑사원)' 개발에 중추적인 역할을 수행할 예정이다. AI 문서 작성 도구인 '한컴어시스턴트'와 '한컴피디아' 등 자사 제품을 통해 공공 및 기업 고객에게 지능형 문서 작성 및 자동화 설루션을 제공, AI 기반 업무 전환을 적극 지원한다는 전략이다.
한글과컴퓨터는 35년간 축적한 전자문서 기술을 AI와 융합해 국내 AI 생태계 구축과 확산에 기여할 것으로 보인다. 그동안 한컴이 해외 기업의 도움 없이 쌓은 문서 데이터들이 소버린 AI를 구현하는 데는 효과적이라는 분석이다.