구글, 모바일·노트북 특화 ‘젬마 4 QAT’ 공개…AI 메모리 사용량 대폭 절감

이번 공개는 양자화가 단순한 압축을 넘어 학습 단계 설계와 결합할 수 있음을 보여준 사례다. [사진: 구글]

[디지털투데이 홍진주 기자] 구글이 스마트폰과 일반 노트북에서도 대형 인공지능(AI) 모델을 보다 쉽게 실행할 수 있도록 메모리 사용량을 크게 줄인 '젬마 4 QAT'(Gemma 4 QAT)를 공개했다. AI 모델을 클라우드가 아닌 기기 내부에서 직접 구동하려는 수요가 늘어나는 가운데, 성능 저하를 최소화하면서도 구동 장벽을 낮추는 전략으로 풀이된다.

8일(현지시간) 온라인 매체 기가진에 따르면, 구글은 양자화 인식 학습(Quantization-Aware Training·QAT)을 적용한 젬마 4 모델군을 공개했다.

이번 모델의 핵심은 AI 학습 과정에서부터 양자화를 고려해 훈련했다는 점이다. 일반적으로 AI 모델은 학습을 마친 뒤 메모리 사용량을 줄이기 위해 양자화 과정을 거친다. 하지만 이 방식은 계산 정밀도가 낮아지면서 응답 품질이 떨어질 수 있다는 단점이 있다.

반면 젬마 4 QAT는 학습 단계에서 양자화를 미리 시뮬레이션하는 방식을 적용했다. 구글은 이를 통해 메모리 사용량을 크게 줄이면서도 기존 모델 수준의 응답 품질을 유지할 수 있다고 설명했다.

이번 공개는 AI 모델의 로컬 실행 수요 증가와 맞물려 있다. 일반적으로 대규모언어모델(LLM)을 PC에서 실행하려면 모델 전체를 그래픽카드 메모리(VRAM)에 올려야 한다. VRAM 용량을 초과할 경우 시스템 메모리(RAM)나 저장장치(SSD)를 활용하게 되는데, 이 경우 응답 속도가 크게 떨어질 수 있다.

구글은 젬마 4 QAT를 통해 이러한 제약을 완화하고 보다 다양한 기기에서 AI 모델을 구동할 수 있도록 지원한다는 계획이다. 젬마 4 QAT는 E2B, E4B, 12B, 26B A4B, 31B 등 젬마 4 전 모델 계열에 적용된다. 특히 E2B와 E4B 모델은 모바일 기기용 최적화 버전도 함께 제공된다.

메모리 절감 효과는 소형 모델에서 더욱 두드러진다. 기존 젬마 4 E2B 모델은 약 11.4GB의 메모리를 필요로 했지만, QAT 기반 4비트(Q4_0) 버전은 약 2.9GB만으로 실행할 수 있다. 모바일 최적화 버전은 메모리 요구량이 1.1GB 수준까지 낮아졌으며, 이미지와 음성 처리 기능을 제외한 텍스트 전용 E2B 모델은 0.84GB 메모리만으로 구동 가능하다.

이는 최근 스마트폰과 경량 노트북에서도 생성형 AI를 직접 실행하려는 움직임과 맞물린다. 기존에는 수십GB 이상의 메모리를 요구하는 모델이 많아 일반 소비자 기기에서 활용하기 어려웠지만, 젬마 4 QAT는 로컬 AI의 진입 장벽을 크게 낮출 수 있다는 평가다.

구글은 배포 방식도 개방적으로 가져갔다. 젬마 4 QAT 모델은 무료로 제공되며, 오픈소스 친화적인 아파치 라이선스 2.0을 적용했다. 또한 개발자들이 많이 사용하는 라마.cpp(llama.cpp), 올라마(Ollama), LM 스튜디오(LM Studio) 등 주요 로컬 AI 실행 환경을 공식 지원한다. 별도의 폐쇄형 플랫폼에 종속되지 않고 다양한 환경에서 자유롭게 활용할 수 있도록 한 것이다.

업계에서는 이번 발표가 AI 모델 경쟁이 단순 성능 향상을 넘어 실행 효율성과 접근성으로 확대되고 있음을 보여주는 사례라고 보고 있다. 특히 1GB 안팎의 메모리로 구동 가능한 모바일 버전과 0.84GB 수준의 텍스트 전용 모델은 향후 스마트폰과 태블릿, 저사양 노트북 등에서도 AI 기능이 빠르게 확산되는 계기가 될 수 있다는 전망이 나온다.

구글은 젬마 4 QAT를 통해 AI를 데이터센터와 고성능 PC에서 일반 소비자 기기로 확장하는 기반을 마련하겠다는 전략이다. AI 모델의 성능 경쟁이 치열해지는 가운데, 얼마나 적은 자원으로 더 많은 기기에서 실행할 수 있는지가 새로운 경쟁 포인트로 떠오르고 있다.

구글, 모바일·노트북 특화 ‘젬마 4 QAT’ 공개…AI 메모리 사용량 대폭 절감

가격대별 인기 장기 렌트카

장기렌트 인기TOP