2024.10.18(금)
KAIST 전산학부 박종세 교수
KAIST 전산학부 박종세 교수


KAIST(총장 이광형)는 전산학부 박종세 교수 연구팀이 지난 9월 15일부터 9월 17일까지 캐나다 밴쿠버에서 열린 ‘2024 IEEE 국제 워크로드 특성화 심포지엄(IEEE International Symposium on Workload Characterization, 이하 IISWC 2024)’에서 최우수 논문상(Best Paper Award)과 최우수 연구 기록물 상(Distinguished Artifact Award)’을 동시에 수상했다고 26일 밝혔다.

박 교수 연구팀은 ‘초거대 언어모델 추론 서비스 제공을 위한 HW/SW 공동 시뮬레이션 인프라(LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale)’ 논문으로 두 상을 동시에 수상했다.

IISWC는 컴퓨터 시스템 워크로드 특성화 분야에서 권위를 자랑하는 국제 학회이며, 개최시마다 최우수 논문상과 최우수 연구 기록물 상을 하나씩 수여하는데 올해에는 박 교수팀의 논문이 두 상을 모두 단독으로 수상했다.

이번 수상 연구는 대규모 거대언어모델(LLM) 추론 서비스를 위한 하드웨어와 소프트웨어 통합 시뮬레이션 인프라를 최초 개발한 점, 향후 LLM 추론 연구의 지속적인 발전을 위해 오픈소스로 공개한 코드의 완성도와 사용자 편의성 측면에서 높은 평가를 받았다.

이번 연구에서 연구팀은 챗GPT와 같은 LLM 추론 서비스를 실행하는 대규모 시스템을 여러 가지 하드웨어와 소프트웨어를 추가해 시뮬레이션할 수 있는 시뮬레이션 인프라를 제안했다.

이를 통해 GPU(그래픽처리장치), NPU(신경망처리장치)와 PIM(지능형메모리반도체)과 같은 다양한 하드웨어뿐만 아니라 반복 수준 스케쥴링, KV 캐시 페이징과 같은 초거대 언어모델 추론을 위한 소프트웨어적 요소를 모두 함께 시뮬레이션할 수 있었다.

이번 연구는 KAIST 전산학부 박종세 교수팀의 조재홍, 김민수, 최현민, 허구슬 학생들이 주도했다.

상을 받은 KAIST 전산학부 박종세 교수는 “이번 연구를 통해, LLM 클라우드 상에서 다양한 AI 반도체와 시스템 소프트웨어의 성능을 종합적으로 평가해 볼 수 있는 오픈소스 도구(Tool)을 공개할 수 있게 되어 기쁘고, 앞으로도 생성형 AI를 위한 클라우드 시스템 연구를 지속해 나갈 것이다”라고 소감을 전했다.

이번 연구 결과는, 챗GPT와 같이 LLM을 활용하는 단순한 챗봇 AI를 넘어, 생성형 AI(Generative AI)로 대표되는 미래 AI 산업에서 이종 AI 반도체 기반 클라우드 시스템을 구축하는 등 다양한 분야에 활용될 수 있을 것으로 기대된다.

한편 이번 연구는 한국연구재단 우수신진연구자지원사업, 정보통신기획평가원(IITP), 인공지능반도체대학원지원사업, 및 하이퍼엑셀의 지원을 받아 수행됐다.

개발한 시뮬레이션 인프라의 시뮬레이션 흐름. 스케줄러부터 시작하여 ASTRA-Sim까지가 한 회차의 흐름이며 이 과정이 계속 반복된다. 매 회차마다 스케줄러에서 기존 작업의 변화와 새로운 작업을 반영하여 현재 회차 시뮬레이션 계획을 세움으로써 초거대 언어모델의 동적 특성을 지원한다.
개발한 시뮬레이션 인프라의 시뮬레이션 흐름. 스케줄러부터 시작하여 ASTRA-Sim까지가 한 회차의 흐름이며 이 과정이 계속 반복된다. 매 회차마다 스케줄러에서 기존 작업의 변화와 새로운 작업을 반영하여 현재 회차 시뮬레이션 계획을 세움으로써 초거대 언어모델의 동적 특성을 지원한다.

개발한 시뮬레이션 인프라의 실행 시간 단축 기술. 초거대 언어모델의 반복 구조를 활용하여 6개의 레이어만 실행한 후 그 결과물을 합쳐 전체 모델에 대한 결과물을 만들고, 재사용을 통해 실행 시간을 획기적으로 단축시켰다.
개발한 시뮬레이션 인프라의 실행 시간 단축 기술. 초거대 언어모델의 반복 구조를 활용하여 6개의 레이어만 실행한 후 그 결과물을 합쳐 전체 모델에 대한 결과물을 만들고, 재사용을 통해 실행 시간을 획기적으로 단축시켰다.


개발한 시뮬레이션 인프라의 이종 가속기 지원. 그림의 경우 NPU와 PIM으로 이루어진 이종 시스템의 예시로, 초거대 언어모델의 Attention 레이어 연산자를 PIM에 할당 후 레이어간 종속성에 따라 스케줄링을 진행한다.
개발한 시뮬레이션 인프라의 이종 가속기 지원. 그림의 경우 NPU와 PIM으로 이루어진 이종 시스템의 예시로, 초거대 언어모델의 Attention 레이어 연산자를 PIM에 할당 후 레이어간 종속성에 따라 스케줄링을 진행한다.


박종세 교수 연구팀의 국제학술대회 발표 사진
박종세 교수 연구팀의 국제학술대회 발표 사진


박종세 교수(왼쪽) 연구팀 단체사진
박종세 교수(왼쪽) 연구팀 단체사진

상장 사진
상장 사진


[안재후 글로벌에픽 기자/anjaehoo@naver.com]
<저작권자 ©GLOBALEPIC 무단 전재 및 재배포 금지>
항목 현재가 전일대비
코스피 2,593.82 ▼15.48
코스닥 753.22 ▼11.84
코스피200 345.42 ▼2.31
모바일화면 이동