• 인쇄
  • 전송
  • 보관
  • 기사목록

삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 공개

실제 업무 상황 반영, 다국어 지원 등 기존 벤치마크와 차별화

  •  

cnbnews 김한준⁄ 2025.09.25 10:23:08

허깅페이스(Hugging Face)에 공개된 트루벤치(TRUEBench) 사이트 메인 화면. 사진=삼성전자
 

삼성전자가 AI 모델의 업무 생산성 성능을 평가하는 자체 개발 벤치마크 ‘트루벤치(TRUEBench)’를 공개했다. 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발했다.

25일 삼성전자에 따르면, 트루벤치는 기존 벤치마크와 달리 업무 생산성에 초점을 맞춘 것이 특징이다. 평가 항목은 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무 체크리스트를 기반으로 10개 카테고리, 46개 업무, 2485개의 세분화된 항목으로 구성됐다. 짧은 요청부터 최대 2만 자 긴 문서 요약까지 폭넓은 업무 상황을 평가한다.

다국어 지원도 강점이다. 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원하며, 글로벌 비즈니스 환경을 고려해 여러 언어가 혼합된 교차 언어 번역 기능 평가도 가능하다.

평가의 객관성과 효율성을 높이기 위해 AI가 교차 검증에 활용된다. AI가 구축된 평가 기준을 검토해 오류나 모순을 확인하며 정교한 평가 기준을 완성한다. 이 방식을 통해 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스에 트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했다.

DX부문 최고기술책임자(CTO) 겸 삼성리서치장 전경훈 사장은 "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것"이라고 말했다.

< 문화경제 김한준 기자 >

관련태그
삼성전자  트루벤치  TRUEBench  AI 업무 생산성  삼성리서치

배너
배너
배너
배너
배너
배너

많이 읽은 기사

배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너