정지환 한글과컴퓨터 최고기술책임자. /사진=양진원 기자

한글과컴퓨터(한컴)가 AI 시대 새로운 도전을 맞고 있다. 오피스 SW(소프트웨어) 회사에서 AI 컴퍼니로 전환을 꿈꾸고 있다. 35년 아래아한글로 전국민의 전자문서 체계를 세운 한컴은 이제는 AI 강국 도약을 가로막는 걸림돌이라는 오해를 받고 있다. 글로벌 빅테크로부터 데이터 주권을 수호해온 한컴은 소버린 AI(국가 주권형 AI) 구축에 전력을 다할 예정이다.

정지환 한컴 CTO(최고기술책임자)는 3년째 SW 기업 한컴의 기술력을 제고하는 데 힘을 쏟고 있다. 정지환 CTO는 뿌리 깊은 한컴에 대한 불신이 안타깝다고 했다.


최근 일각에서는 한글의 문서 포맷 HWP과 HWPX가 AI 학습에 걸림돌이 된다는 지적이 나온다. 해당 포맷의 폐쇄성이 AI 데이터 추출을 어렵게 만든다는 것이다.

HWPX는 기존 HWP와 달리 문서의 내용을 XML 형태로 저장하여 다양한 환경에서의 문서 교환과 호환성을 개선한 형태다. 2021년부터 한글 파일의 기본 포맷은 HWPX로 변경됐다. 정 CTO는 "개방형 포맷 XML은 W3C 국제 표준 규격으로 기술 표준이 모두 공개돼 있다"며 "ZIP을 해제하고 XML에서 데이터를 추출해 구조에 맞게 해석하면 데이터 활용이 가능하다"고 강조했다. 이어 " 문서 데이터가 XML 구조로 표현하고 있기 때문에 사람 뿐만 아니라 기계가 쉽게 읽을 수 있는 형태로 구성돼 있다"고 했다.

데이터 추출을 위해 HWP, HWPX는 PDF로 한 번 더 변환해야 한다는 말도 있지만 사실과 다르다고 설명했다. 정 CTO는 "PDF로 변환해서 데이터를 가져오는 수준이라면 HWPX를 열어 가지고 텍스트를 뽑아오면 바로 활용할 수 있다"며 "기술적 차이가 없다"고 했다. MS 오피스 문서 역시 한글과 비슷한 과정을 거쳐야 해 AI 데이터로 쓰는 데 여러 과정을 겪어야 한다.


국제 표준인 OOXML이나 ODF를 전면 도입해야 한다는 주장도 있지만 이 역시 실효적이지 않다고 말했다. 정 CTO는 "국제 표준 문서이든 국내 표준 문서이든 모두 동일한 비정형 문서 포맷으로 AI에서 활용하기 위해서는 데이터 변환이 필수"라며 "글로벌 포맷은 오픈되어 있는 기술들로 데이터 추출이 쉽다는 의견이 있으나 최근 AI 기술 고도화로 고품질 데이터가 필요해진 상황에선 오픈된 데이터 추출 기술로는 한계가 있다"고 전했다. 결과적으로 고품질 데이터를 얻기 위해선 포맷을 직접 분석하여 추출해야 하는 과제는 국제 표준이나 한글 문서가 동일한 과제를 가지고 있다는 설명이다.

상대적으로 AI 데이터 활용에 유리한 HWPX 확산에 힘을 쏟겠다고 헀다. HWP에서 HWPX로 변환은 손쉽게 할 수 있도록 시스템을 구축했지만 아직 대다수 공공기관에서는 이를 꺼려하는 상황이다. 문서의 진본성을 중시하는 분위기인 까닭에 형식이 변하는 데 거부감이 있다는 것이다. 정 CTO는 "새로운 파일 형식으로 바뀌는 것이지만 기본적인 내용은 전혀 달라지지 않는다"고 말했다.

한글 데이터, 소버린 AI 구축의 핵심… 소통 중시하는 개발 문화로 AI 성과 낸다

정지환 한컴 CTO가 자사의 AI 청사진을 설명하고 있다. /사진=양진원 기자

정 CTO는 한컴의 한글 문서는 소버린AI를 추진하는 데 밑거름이 될 수 있다고 역설했다. MS를 비롯한 일부 기업들이 세계 시장을 잠식하는 과정에서 한국은 한컴의 독자 문서 포맷 덕분에 데이터 주권을 수호했고 한컴의 방대한 한국어 문서 데이터는 국가대표 AI 학습 역량 강화에 기여할 수 있다는 것이다.

정 CTO는 "한글 파일은 35년 동안 한국어 복잡한 언어적 특성을 표현할 수 있는 포맷으로 설계·발전했고 소버린 AI 전략에 맞게 한국형 데이터에 따른 해외 기술에 종속되지 않는 AI 기술을 확보할 수 있다"고 말했다. 한국형 데이터를 가장 잘 처리하는 국산 AI 기술 경쟁력을 확보할 수 있다는 것이다. 자국민 민감 정보 데이터를 보호하는 데 유리하고 글로벌 기업의 영향력에서 벗어날 수 있다.

MS오피스가 한글과의 호환을 제공하지 않아 공문서를 열람할 시 돈을 내고 한컴오피스를 써야 한다는 인식도 잘못 됐다고 했다. 정 CTO는 "HWPX 포멧은 한컴독스, 한컴닷컴에 공개된 '공공한글'을 통한 무료 오픈 및 편집이 가능하다"며 "국내 표준으로 포맷이 공개되어 있기에 폴라리스오피스, 사이냅, 온리오피스 등 타사 문서 저작도구에서도 한글문서를 지원한다"고 전했다.

정 CTO는 소통을 위해 직원들과 비밀리에 허심탄회한 얘기를 나누곤 한다. 올해부터 시작된 'CTO 속풀이'는 사연을 보낸 직원 중 한 명을 선정해 월 1회 CTO와 1대1로 식사를 하는 자리다. 소통이 경직된 구조를 타파하고 참신한 아이디어를 얻기 위해 정 CTO가 기획했다. 기술 설명회에서 직원들의 질문이 저조하자 CTO 속풀이에서 아이디어를 얻어 익명 질의응답을 진행하기도 했다.

정 CTO는 그동안 열심히 개발한 AI 기술들을 제대로 쓰이게 하기 위해 노력하겠다고 했다. 그는 "한컴오피스로만 알려졌던 회사가 AI 설루션도 어느 정도 잘 만들어서 기술을 보유했고 외부에도 알려지면서 AI 회사로서 성과를 내는 부분들이 있었다"며 "짧은 기간이었지만 회사 이미지를 빠르게 바꿀 수 있어 고 개발 수장으로서 성취감이 있었다"고 말했다. "앞으로도 이렇게 잘할 수 있을까라는 걱정도 있다"고 솔직한 속내를 털어놨다.

한컴은 정 CTO 주도 아래 R&D프로그램, 기술 온보딩 프로그램, 사내 스터디그룹, 직무역량 강화 프로그램 등을 운영 중이다. 지금까지 AI 기술 개발에 주력했다면 이제는 확산시키는 데 힘을 쏟겠다는 의지다. LG AI연구원 컨소시엄의 멤버로 프로젝트에 합류한 만큼 공공기관과 밀접한 관계를 바탕으로 AI 고객 확보에도 전력을 다할 예정이다.