카카오, ‘스스로 사고하는’ 한국형 하이브리드 멀티모달 AI 공개

Home > > 기사내용

입력 2026.01.05 11:20:58

황수오

일반 대화·추론 모드 통합한 ‘카나나 v-4b 하이브리드’… 환각 최소화·한국어 추론 경쟁력 입증

사진=카카오

카카오가 일반 대화와 고난도 추론을 하나의 모델로 수행하는 한국형 하이브리드 멀티모달 언어모델을 공개하며 자체 AI 기술력을 과시했다.

카카오(대표 정신아)는 5일 신규 AI 모델 ‘Kanana-v-4b-hybrid’의 성능을 공개하고, 가벼운 일상 대화부터 논리적 사고가 필요한 복잡한 문제 해결까지 단일 모델로 처리할 수 있는 기술적 성과를 선보였다고 밝혔다.

이번 모델은 지난해 7월 오픈소스로 공개한 ‘Kanana-1.5-v-3b’를 기반으로 고도화됐다. 단순 이미지-텍스트 변환을 넘어, 모델 스스로 정보를 종합하고 계산한 뒤 검산하는 자기 점검 과정을 거치는 것이 특징이다. 이를 통해 AI의 고질적 한계로 지적돼 온 환각 현상을 크게 줄였으며, 표·영수증·수학 문제 등 복합적인 조건이 얽힌 과제에서도 계산 실수와 조건 누락을 최소화해 정확도를 끌어올렸다.

카카오는 해당 모델에 ▲기초 학습 ▲장문 사고 사슬(Long CoT) ▲오프라인 강화학습 ▲온라인 강화학습으로 이어지는 4단계 학습 과정을 적용했다. 이를 통해 복잡한 문제에 대한 추론 정확도와 안정성을 동시에 확보했다는 설명이다.

특히 한국어 논리 전개 능력에서 경쟁력을 입증했다. 기존 글로벌 모델들이 한국어 질문을 영어로 번역해 사고한 뒤 재번역하는 과정에서 맥락 손실이 발생했던 반면, 카카오의 모델은 한국어를 그대로 이해하고 사고하도록 설계됐다. 그 결과 대학수학능력시험 사회탐구와 수학 문제 등에서 한국어 특유의 조건과 문맥을 정확히 반영해 높은 정답률을 기록했다. 한국형 AI 학력 평가 벤치마크인 ‘KoNET’에서는 92.8점을 획득했다.

또한 Qwen3-VL-4B, InternVL3.5-4B, GPT-5-nano 등 국내외 유사 규모 모델과의 비교 평가에서도 과학·공학, 일반 시각 질의응답, 문서 이해 영역에서 높은 성능을 기록했다. 수학·과학 등 고난도 추론 영역과 시각 이해 부문에서는 글로벌 모델을 상회하는 결과도 나타났다.

카카오는 향후 사용자가 별도의 모델이나 모드를 선택하지 않아도 AI가 질문의 복잡도를 스스로 판단해 일반 모드와 추론 모드를 자동 전환하는 형태로 기술을 고도화할 계획이다. 이를 통해 하나의 대화창에서 단순 질의와 복잡한 분석 요청을 자연스럽게 처리하면서도 비용 효율성을 높인 AI 서비스를 구현하겠다는 전략이다.

김병학 카카오 카나나 성과리더는 “Kanana-v-4b-hybrid는 한국어 환경에서 가장 자연스럽고 정확하게 사고하고 답변할 수 있는 모델”이라며 “자체 AI 기술을 통해 글로벌 경쟁력을 강화하는 동시에 국내 AI 연구 생태계 발전을 선도해 나가겠다”고 말했다.

한편 카카오는 최근 ‘Kanana-o’, ‘Kanana-v-embedding’을 비롯해 에이전틱 AI 구현에 최적화된 ‘Kanana-2’를 오픈소스로 공개하는 등 AI 기술 고도화 행보를 이어가고 있다.

< 문화경제 황수오 기자 >

황수오 jongrosuoh@naver.com