SK텔레콤이 주도하는 'A.X K1'이 옴니모달 AI로의 진화를 예고하며 국가대표 AI로서의 기술 경쟁력을 다시 한 번 입증하고 있다는 평가가 나온다. 독자 AI 파운데이션 모델 프로젝트 2단계부터 본격 적용될 멀티모달·옴니모달 기술 방향성이 구체화되면서 SK텔레콤 컨소시엄의 기술적 완성도에 대한 기대감도 커진다.
SK텔레콤은 최근 김건희 서울대학교 공과대학 컴퓨터공학부 및 첨단융합학부 교수가 '소버린 AI 위해 옴니모달로 진화해 갈 A.X K1'라는 제목의 칼럼을 통해 A.X K1의 기술 로드맵과 핵심 경쟁력을 공개했다고 밝혔다. 김 교수는 SK텔레콤 독자 AI 파운데이션 모델 프로젝트 정예팀의 일원으로 참여하고 있다. 그는 서울대학교 공과대학 컴퓨터공학부 및 첨단융합학부에서 컴퓨터 비전, 기계학습, 자연어 처리 분야를 연구 하고 있으며 지난해에만 1 NeurIPS, 2 EMNLP, 2 ICCV, 3 ACL, 1 ICML, 2 CVPR, 2 NAACL, 3 ICLR 등 다수의 국제 권위 학술대회와 저널에 논문 게재하며 활발하게 활동 중이다.
김 교수는 해당 칼럼에서 SK텔레콤 정예팀이 1단계 초거대 언어모델 구축에 성공했으며 향후 궁극적인 목표로 텍스트와 이미지 영상 음성을 아우르는 옴니모달 AI로 진화할 계획이라고 설명했다. 대규모 언어모델은 뛰어난 추론 성능과 다국어 이해 능력을 바탕으로 다양한 중소형 모델을 빠르고 강력하게 개발할 수 있는 토대가 된다는 점도 강조했다.
멀티모달에서 옴니모달로의 확장은 글로벌 AI 기술 흐름과도 맞닿아 있다. 김 교수는 언어모델이 텍스트를 넘어 사진과 영상 등 다양한 데이터를 통합적으로 이해하는 멀티모달 모델로 발전해 왔으며 최근에는 음성까지 실시간으로 처리하는 옴니모달 모델로 진화하고 있다고 분석했다. 특히 오픈AI의 GPT-4o가 옴니모달 시대를 본격적으로 열었다고 평가했다.
다만 옴니모달 구현에는 기술적 난이도도 높다. 김 교수는 ▲실시간 상호작용이 필요한 음성 대화의 특성 ▲지나치게 긴 응답이 몰입도를 떨어뜨릴 수 있다는 점 ▲음성 기반 사용자 지시를 정확히 반영해야 하는 문제 등을 핵심 과제로 제시했다. 이러한 도전 과제를 해결하기 위해 최근에는 하나의 통합된 언어모델이 음성 정보까지 함께 처리하도록 발전하고 있다고 설명했다.
대표적인 사례로는 엔비디아의 OmniVinci 모델이 언급됐다. 김 교수는 옴니모달 모델의 성패는 강력하게 사전 학습된 언어모델의 성능에 달려 있다며 고성능 초거대 언어모델을 확보한 것이 옴니모달 AI 개발의 핵심 요소라고 짚었다. 이는 SK텔레콤이 A.X K1을 통해 선제적으로 초거대 언어모델을 구축한 배경과도 맞닿아 있다.
SK텔레콤 컨소시엄은 A.X K1의 옴니모달 진화를 통해 실질적인 서비스 확장도 노리고 있다. 티맵과 B tv 등 생활 밀착형 서비스에 실시간 음성 대화를 적용하고 크래프톤의 게임 AI 고도화와 포티투닷의 모빌리티 AI 기술 발전에도 핵심 동력으로 활용할 수 있을 것으로 기대된다.