티쓰리큐, HuggingFace 오픈 LLM 리더보드 글로벌 2위 달성

더피알=김경탁 기자 ｜ 인공지능 전문기업 티쓰리큐(대표 박병훈)가 세계적인 자연어처리(NLP) 플랫폼이자 거대언어모델(LLM) 평가도구인 ‘허깅페이스(HuggingFace) 오픈 LLM 리더보드’의 매개변수 70억개(7B) 모델 부문에서 글로벌 2위를 차지했다.

티쓰리큐는 “Mistral-7B모델을 강화학습 계열의 DPO(Direct Preference Optimization)방식을 이용하여 파인튜닝한 ‘T3Q-DPO-Mistral-7B’ 모델이 이 부문에서 약76.7점의 평균 점수를 얻었다”고 18일 밝혔다.

티쓰리큐 측은 “특히 상식(HellaSwag)과 언어이해(MMLU), 환각방지(TruthfulQA) 능력 테스트에서 각각 89.23점, 64.42점, 78.41점을 받으며 기존 기록을 경신했다”고 설명했다.

티쓰리큐는 한국어 모델 부문인 Open Ko-LLM 리더보드에서도 Upstage Solar 10.7B(107억)를 파인튜닝한 모델로 3위를 차지했는데, 특히 한국어 언어이해(Ko-MMLU)과 상식생성능력(Ko-CommonGen V2) 테스트에서 각각 58.57점, 56.08점으로 최고 기록을 경신했다.

이 프로젝트를 이끈 이치훈 부사장은 “적은 매개변수로도 저비용-고성능의 효율성 있는 모델임을 입증함으로써 공공 및 민간조직의 특화된 데이터에 파인튜닝(SFT, DPO)을 거쳐 축적된 데이터를 T3Q의 인공지능 플랫폼들을 적용하면 환각은 최소화되고 보안은 유지되는 조직 특화형 Private-LLM을 구축하는 것이 가능하다”고 설명했다.

한편 티쓰리큐는 인공지능 빅데이터 통합 플랫폼(T3Q.ai, 2018)과 멀티모달 기반 지능형 검색 플랫폼(T3Q.search, 2021)에 이어 데이터 기반의 비즈니스 혁신을 위한 플랫폼(EDPP, 2023)을 개발한 바 있다.

LLM 파인튜닝을 지원하는 티쓰리큐 플랫폼들은 3년(2021~2023) 200억 규모의 통일부 프로젝트에서 검증된 바 있고, 조달청 디지털서비스몰에도 등록되어 있다.

티쓰리큐 플랫폼은 △일반 데이터로 학습된 LLM 모델을 조직 내 다양한 종류의 데이터(이미지, 영상, 위성, 텍스트, 문서 등)로 파인튜닝한 Private-LLM 만들기 △P-LLM 모델을 끊임없이 생성/변화하는 우리 조직의 데이터로 지속해서 유지 및 업그레이드 가능한 체계 구축하기 △생성모델의 한계이자 특징인 환각(Hallucination) 극복하기 등 3단계 절차로 작동한다.

박병훈 대표는 “이러한 Private-LLM 구축전략은 정부 부처, 군, 나아가 민간 기업에서도 데이터를 근거로 계획, 실행, 평가가 가능한 데이터 기반 비즈니스 혁신체계(EDPP, Enterprise Data Processing Platform)를 대한민국이 선도하는데 기여할 것”이라고 자신감을 비쳤다.

김경탁삶 속의 말과 앎을 고찰해 맘을 들여다보려합니다 다른기사 보기