SKT, 자체 LLM 기반 멀티모달·문서 해석 기술 공개

긴 문서도 고속 처리… 한국어 특화 시각-언어모델로 기업 활용 확대

김한준 기자 2025.07.29 10:49:10

가 +
가 -

A.X 4.0의 대규모 학습을 진행한 SK텔레콤 자체 구축 슈퍼컴퓨터 ‘타이탄’. 사진=SK텔레콤

SK텔레콤이 자체 개발한 초거대언어모델(LLM) ‘A.X(에이닷 엑스)’를 기반으로, 멀티모달 시각-언어모델(VLM)과 대규모 문서 처리 기술을 29일 공개했다.

이번에 오픈소스 커뮤니티 ‘허깅페이스(Hugging Face)’를 통해 배포한 모델은 ‘A.X 인코더’와 ‘A.X 4.0 VL Light’ 2종이다. SKT는 이를 포함해 올 7월 한 달간 총 6종의 A.X 시리즈를 순차 공개하며 LLM 경쟁력 강화를 본격화하고 있다.

‘A.X 인코더’는 SKT가 자체 데이터 처리에 활용하기 위해 개발한 자연어 이해 모델로, 긴 문서를 빠르게 분석하고 처리할 수 있는 것이 특징이다. 최대 1만 6384개 토큰을 처리하며, 기존 오픈모델 대비 3배 빠른 추론속도, 2배 높은 학습효율을 구현했다.

자연어 이해 벤치마크 KLUE에서 85.47점을 기록하며, 글로벌 오픈모델 ‘RoBERTa-base’(80.19점)를 웃도는 성능을 입증했다.

SKT는 해당 기술을 자체 LLM 학습뿐 아니라 대용량 문서 자동처리, 기업 데이터 분석 등 다양한 영역에 적용할 계획이다.

‘A.X 4.0 VL Light’는 한국어 멀티모달 데이터셋으로 학습된 시각-언어모델이다. 시각 정보와 텍스트를 동시에 이해할 수 있어 표·그래프 해석, 제조 도면 분석 등 산업 분야 활용에 강점을 지닌다.

7B(70억) 매개변수의 경량 구조임에도 불구하고, 한국어 시각 벤치마크 평균 79.4점, 텍스트 벤치마크 60.2점, KoBizDoc 문서 이해 평가에서 89.8점을 기록했다. 동일 분야의 대형모델 ‘Qwen2.5-VL32B’보다 성능이 뛰어나거나 유사한 수준이다.

또한, 동일 데이터 입력 시 약 41% 적은 텍스트 토큰을 사용해 기업의 운영비용 절감에도 기여할 것으로 기대된다.

김태윤 SK텔레콤 파운데이션 모델 담당은 “소버린 AI 실현의 핵심은 독자 기술력 확보”라며 “자체 역량을 고도화하고 컨소시엄 기업들과 협업을 통해 글로벌 최고 수준의 경쟁력을 확보하겠다”고 밝혔다.