KAIST, 생성형 AI 추론 성능 60%↑ NPU 기술 개발
||2025.07.04
||2025.07.04
기존 GPU 대비 전력 소모 44% 줄
KV 캐시 양자화로 메모리 병목 해소
한국과학기술원(KAIST) 연구진이 생성형 인공지능(AI) 모델의 추론 성능을 획기적으로 개선할 수 있는 신경망처리장치(NPU) 기술을 개발했다. 최신 GPU 대비 전력 소모를 44% 낮추면서도 평균 60% 이상 성능을 높일 수 있는 수준으로, 고성능·저전력 AI 인프라 구축의 대안으로 주목된다.
박종세 KAIST 전산학부 교수 연구팀은 4일 전기및전자공학부 김주영 교수 창업 기업인 ㈜하이퍼엑셀과 공동으로 생성형 AI 클라우드에 특화된 NPU 핵심 기술을 개발했다고 밝혔다.
해당 연구는 컴퓨터 아키텍처 분야 최고 권위의 국제학회인 ‘2025 국제 컴퓨터구조 심포지엄(ISCA 2025)’ 논문으로 채택됐다.
연구진은 대규모 언어모델의 추론 과정에서 성능을 높이기 위해 필요한 대용량 메모리 사용량을 줄이기 위한 해법으로, KV 캐시(Key-Value Cache)의 양자화(quantization) 기법을 도입했다. 예를 들어 32비트 데이터를 4비트로 변환하면 메모리 요구량이 8분의 1 수준으로 감소하게 된다.
양자화 기술 외에도 연구팀은 NPU 연산 로직을 그대로 유지하면서, KV 캐시에 최적화된 인코딩 기법과 페이지 단위 메모리 관리 방식 등을 함께 적용해 기존 GPU 인프라의 병목 현상을 해소했다.
이 기술은 적은 수의 NPU 디바이스로도 대규모 생성형 AI 모델을 운영할 수 있도록 해, AI 인프라 구축과 운영 비용 절감 효과도 기대된다.
박종세 교수는 “양자화 알고리즘과 메모리 효율화 기술을 결합해 GPU 대비 높은 성능과 낮은 전력 소모를 동시에 구현한 점이 성과의 핵심”이라며 “AI 데이터센터뿐만 아니라 에이전틱 AI 등 차세대 인공지능 환경에서도 활용도가 높을 것”이라고 설명했다.
©(주) 데일리안 무단전재 및 재배포 금지