엔비디아, 영상 생성 AI ‘사나-WM’ 공개…처리 성능 36배 '괴물급' 향상
||2026.05.18
||2026.05.18
[디지털투데이 AI리포터] 엔비디아가 최대 1분 길이의 720p 영상을 생성할 수 있는 오픈소스 월드모델 사나-WM(SANA-WM)을 공개했다.
18일(현지시간) 온라인 매체 기가진에 따르면, 해당 모델은 장시간 영상 생성뿐 아니라 6자유도(6DoF) 카메라 궤적을 기반으로 시점을 정밀하게 제어할 수 있는 기능이 핵심이다.
사나-WM은 26억개의 매개변수로 설계됐다. 월드모델은 현실 세계나 가상공간의 구조, 시점 이동, 물체의 변화 등을 내부적으로 예측해 영상으로 생성하는 인공지능(AI) 모델이다. 최근 영상 생성 AI가 수초 단위의 결과물은 빠르게 발전했지만, 1분 길이의 영상을 안정적으로 생성하려면 프레임 간 연결성과 장면 일관성을 유지해야 해 연산 부담이 크게 증가한다.
엔비디아 연구팀은 사나-WM이 처음부터 1분 영상 생성을 전제로 설계됐으며, 대규모 산업용 모델에 준하는 화질을 유지하면서도 계산 효율을 개선했다고 설명했다.
이번 모델의 핵심 차별점은 카메라 제어 기능이다. 사나-WM은 전후·좌우·상하 이동과 회전을 포함한 6자유도 카메라 궤적에 따라 영상을 생성할 수 있다. 게임이나 로봇 시뮬레이션처럼 시점 제어가 중요한 환경에서 활용도를 높이기 위한 구조다. 연구팀은 기존 오픈소스 모델보다 카메라 궤적 지시를 더 정확하게 반영하면서도, 대규모 모델 수준의 시각 품질을 유지하고 처리량은 36배 향상했다고 밝혔다.
장시간 영상 생성을 위해 '하이브리드 선형 어텐션 메커니즘'이 적용됐다. 긴 시간 흐름을 효율적으로 유지하는 구조와 필요한 장면을 선택적으로 참조하는 구조를 결합해, 1분 영상에서도 일관성을 유지하도록 설계됐다.
또한 카메라 추종 정확도를 높이기 위해 2계통 제어 방식이 도입됐다. 전체 카메라 이동 흐름과 프레임 단위의 미세한 시점 변화를 함께 처리해, 장시간 영상에서도 시점 오류를 최소화하도록 했다.
화질 보정은 본체와 리파이너를 분리한 2단계 구조로 구성됐다. 본체가 장시간 영상을 생성한 뒤, 리파이너가 세부 묘사와 프레임 간 연결성을 추가로 보정하는 방식이다.
학습에는 약 21만3000개의 공개 영상 클립이 사용됐다. 연구팀은 영상에서 6자유도 카메라 자세를 추정하는 주석 파이프라인을 구축해 데이터를 생성했으며, H100 그래픽처리장치(GPU) 64개로 약 15일 만에 학습을 완료했다.
성능도 함께 공개됐다. 60초 영상은 단일 GPU에서 생성할 수 있으며, 증류 모델과 RTX 5090, NVFP4 양자화를 적용할 경우 720p 60초 영상의 노이즈 제거 단계는 약 34초까지 단축됐다. H100 기준 기존 약 21.8분이 걸리던 작업은 증류 모델에서 48초 수준으로 줄었고, 일부 구성에서는 34초까지 개선됐다. RTX 5090 환경에서는 메모리 제약이 발생했지만, sink 구조와 양자화를 적용하면 처리 속도가 크게 개선됐다.
연구팀은 사나-WM이 기존 오픈소스 모델보다 카메라 궤적 지시를 더 정확히 따르면서도, 대규모 모델 수준의 시각 품질을 유지했고 처리량은 36배 향상됐다고 강조했다.


1
2
3
4
5