더피알=김경탁 기자 | 인공지능 전문기업 티쓰리큐(대표 박병훈)가 세계적인 자연어처리(NLP) 플랫폼이자 거대언어모델(LLM) 평가도구인 ‘허깅페이스(HuggingFace) 오픈 LLM 리더보드’의 매개변수 70억개(7B) 모델 부문에서 글로벌 2위를 차지했다.
티쓰리큐는 “Mistral-7B모델을 강화학습 계열의 DPO(Direct Preference Optimization)방식을 이용하여 파인튜닝한 ‘T3Q-DPO-Mistral-7B’ 모델이 이 부문에서 약76.7점의 평균 점수를 얻었다”고 18일 밝혔다.
티쓰리큐 측은 “특히 상식(HellaSwag)과 언어이해(MMLU), 환각방지(TruthfulQA) 능력 테스트에서 각각 89.23점, 64.42점, 78.41점을 받으며 기존 기록을 경신했다”고 설명했다.
티쓰리큐는 한국어 모델 부문인 Open Ko-LLM 리더보드에서도 Upstage Solar 10.7B(107억)를 파인튜닝한 모델로 3위를 차지했는데, 특히 한국어 언어이해(Ko-MMLU)과 상식생성능력(Ko-CommonGen V2) 테스트에서 각각 58.57점, 56.08점으로 최고 기록을 경신했다.
이 프로젝트를 이끈 이치훈 부사장은 “적은 매개변수로도 저비용-고성능의 효율성 있는 모델임을 입증함으로써 공공 및 민간조직의 특화된 데이터에 파인튜닝(SFT, DPO)을 거쳐 축적된 데이터를 T3Q의 인공지능 플랫폼들을 적용하면 환각은 최소화되고 보안은 유지되는 조직 특화형 Private-LLM을 구축하는 것이 가능하다”고 설명했다.
한편 티쓰리큐는 인공지능 빅데이터 통합 플랫폼(T3Q.ai, 2018)과 멀티모달 기반 지능형 검색 플랫폼(T3Q.search, 2021)에 이어 데이터 기반의 비즈니스 혁신을 위한 플랫폼(EDPP, 2023)을 개발한 바 있다.
LLM 파인튜닝을 지원하는 티쓰리큐 플랫폼들은 3년(2021~2023) 200억 규모의 통일부 프로젝트에서 검증된 바 있고, 조달청 디지털서비스몰에도 등록되어 있다.
티쓰리큐 플랫폼은 △일반 데이터로 학습된 LLM 모델을 조직 내 다양한 종류의 데이터(이미지, 영상, 위성, 텍스트, 문서 등)로 파인튜닝한 Private-LLM 만들기 △P-LLM 모델을 끊임없이 생성/변화하는 우리 조직의 데이터로 지속해서 유지 및 업그레이드 가능한 체계 구축하기 △생성모델의 한계이자 특징인 환각(Hallucination) 극복하기 등 3단계 절차로 작동한다.
박병훈 대표는 “이러한 Private-LLM 구축전략은 정부 부처, 군, 나아가 민간 기업에서도 데이터를 근거로 계획, 실행, 평가가 가능한 데이터 기반 비즈니스 혁신체계(EDPP, Enterprise Data Processing Platform)를 대한민국이 선도하는데 기여할 것”이라고 자신감을 비쳤다.