163초를 단 5초로 압축…세레브라스 "GPU 시대는 끝났다"
||2026.05.21
||2026.05.21
[디지털투데이 홍경민 인턴기자] 인공지능(AI) 칩 설계 기업 세레브라스가 1조개 파라미터 오픈웨이트 모델 '키미 K2.6'(Kimi K2.6)을 기업 고객 대상 추론 서비스에 투입하며 초당 981토큰이라는 세계 최고 속도를 달성했다.
지난 19일(현지시간) 세레브라스와 블록체인 매체 크립토폴리탄에 따르면, 이번 서비스는 속도·성능·모델 규모 세 측면에서 동시에 기록을 경신하며 에이전틱 코딩 분야의 판도 변화를 예고하고 있다.
세레브라스는 최근 기업공개(IPO)를 추진 중인 가운데 빠르게 존재감을 키우고 있다. 상장 신청 서류에 따르면 2025년 매출은 5억1000만달러로 전년 대비 76% 급성장했으며, 2억3800만달러의 순이익을 올리며 흑자 전환에도 성공했다.
또한 오픈AI와 지난 1월 2028년까지 200억달러 규모의 장기 컴퓨팅 계약을 체결했고, 3월에는 아마존웹서비스(AWS)와 자사 데이터센터에 세레브라스 시스템을 도입하는 계약을 맺었다.
세레브라스가 이들 기업의 선택을 받은 배경에는 독보적인 추론 속도가 있다. AI 성능 평가 기관 아티피셜 애널리시스는 세레브라스의 K2.6 추론 속도를 초당 981토큰으로 측정했다. 이는 GPU 기반 클라우드 중 차순위보다 6.7배, 추론 서비스 중앙값 대비 23배 빠른 수치다.
단순 출력 속도를 넘어 실제 응답 완료까지의 격차는 더 극적이다. 1만토큰 입력 기준 500토큰 출력 완료까지 세레브라스는 5.6초가 소요됐지만, 공식 키미 엔드포인트는 163.7초가 걸렸다. 최종 답변 도달 시간 기준으로 29배 차이다.
이처럼 압도적인 속도를 뒷받침하는 것은 K2.6 자체의 높은 모델 완성도다. K2.6은 코딩·에이전틱 작업 분야 최고 오픈웨이트 모델로 평가받는다. SWE-벤치 프로에서 58.6점으로 클로드 오푸스 4.6을 앞서고, GPT-5.4에 필적하는 성능을 보인다. 이 같은 성능은 단순 코드 생성에 그치지 않는다. 프런트엔드 설계부터 인증·데이터베이스 처리·장기 에이전트 실행까지, 풀스택 워크플로 전반을 커버할 수 있다.
이 성능을 가능하게 한 것은 세레브라스의 독자 하드웨어 아키텍처다. 세레브라스는 웨이퍼 스케일 엔진(WSE) 기반 CS-3 클러스터로 이 성능을 구현했다. K2.6의 원본 4비트 가중치를 저장하면서 연산은 16비트 부동소수점으로 처리하며, 가중치는 여러 웨이퍼에 분산된다. 웨이퍼 간 통신은 NVLink NVL72 대비 200배 이상의 대역폭을 가진 온웨이퍼 네트워크 패브릭으로 처리하고, 커스텀 커널과 투기적 디코딩을 결합해 최종 속도를 끌어올렸다.
속도의 의미는 수치를 넘어 개발 방식 자체의 변화로 이어진다. 에이전틱 코딩은 현재 LLM의 최고 가치 활용 사례이자 추론 속도에 가장 민감한 워크로드다. 초당 1000토큰에 근접한 속도에서 개발자는 대기·검토 반복 대신 실시간 개발이 가능해지고, 여러 에이전트를 병렬 실행하며 전환하는 비효율도 줄어든다.
현재 세레브라스는 K2.6 서비스를 기업 고객 트라이얼 단계로 운영 중이다. 추론 속도가 에이전틱 AI의 핵심 경쟁력으로 부상하는 가운데, GPU 중심의 기존 추론 시장 판도가 흔들릴지 주목된다.


1
2
3
4
5