구글, ‘제미나이 옴니’ 공개…텍스트·이미지·오디오로 영상 생성
||2026.05.20
||2026.05.20
구글이 이미지, 오디오, 비디오, 텍스트를 함께 이해하고 영상을 만드는 멀티모달 AI 모델 '제미나이 옴니'를 공개했다.
19일(현지시간) 테크크런치에 따르면 구글은 연례 개발자 컨퍼런스 구글 I/O에서 '제미나이 옴니 플래시'를 선보이고 제미나이 앱, 유튜브 쇼츠, AI 창작 도구 플로우에 우선 적용했다고 밝혔다.
제미나이 옴니는 여러 입력을 단순 결합하는 대신, 이미지와 오디오, 영상, 텍스트를 함께 추론해 일관된 결과물을 만든다. 이를 통해 물리, 문화, 역사, 과학에 대한 이해가 반영된 고품질 영상을 생성할 수 있다는게 구글 설명이다.
구글은 장기적으로는 오디오로 이미지를 만들거나 영상에서 오디오를 생성하는 방식으로 제미나이 옴니를 확장할 계획이다.
이번 제미나이 옴니 공개는 우선 영상 생성에 초점이 맞춰졌다. 사용자는 복잡한 편집 소프트웨어 없이 자연어 명령만으로 사진을 수정할 수 있다. 본인 디지털 아바타를 활용한 영상 생성도 지원한다.
딥페이크를 막기 위해 아바타 생성에는 별도 등록 절차가 필요하다. 사용자가 직접 자신을 촬영하고 숫자를 읽으면 아바타가 저장돼 이후 다시 쓸 수 있다. 제미나이 옴니로 만든 모든 영상에는 구글 디지털 워터마크 '신스ID'가 삽입된다.
니콜 브리히토바 구글 딥마인드 제품관리 책임자는 제미나이 옴니는 기존 영상 생성 모델 '비오'를 단순하게 업데이트한 것이 아니라고 밝혔다. 제미나이 지능과 미디어 모델 렌더링 역량을 결합한 차세대 기술이라는 설명이다. 코라이 카부크추올루 딥마인드 최고기술책임자는 '단백질 접힘을 설명하는 클레이 애니메이션'이라는 간단한 프롬프트만으로 스톱모션 스타일 영상과 음성 해설을 빠르게 만들 수 있었다고 소개했다.
첫 모델인 제미나이 옴니 플래시는 10초 분량 영상을 생성한다. 이에 대해 구글은 모델 한계 때문이 아니라 보다 많은 사용자가 먼저 써보도록 하기 위한 것이라고 설명했다. 보다 긴 영상 생성 기능은 조만간 추가할 예정이다.
구글은 제미나이 옴니 플래시를 우선 소비자용 툴로 포지셔닝하는 모습이다. 수상 장면이나 달에 가는 영상을 만들거나, 여행 영상 배경에 찍힌 행인을 지우는 식의 활용 사례를 제시했다. 하지만편집 명령이구체적이지 않으면 원하지 않은 요소까지 바꾸는 과도한 수정이 일어날 수 있다고 덧붙였다.
구글은 며칠 안에 제미나이 옴니를 API로도 제공할 예정이다. 광고와 영상 제작 등 전문 활용을 겨냥한 상위 모델 '제미나이 옴니 프로'도 준비 중이다. 출시 시점은 공개하지 않았다.


1
2
3
4
5