이모지로 감정 표현하는 음성 AI…이로도리 TTS V3 공개
||2026.06.08
||2026.06.08
[디지털투데이 AI리포터] 로컬 실행 기반 음성합성 AI 이로도리(Irodori)-TTS가 V3 모델 출시와 함께 음질 개선, 출력 길이 지정, 이모지 팔레트 추가 등 주요 기능을 대폭 업데이트했다.
7일(현지시간) 온라인 매체 기가진에 따르면, 이로도리-TTS는 GPU 없이도 PC에서 로컬 실행이 가능한 음성합성 AI다. 클라우드 기반 AI와 달리 생성 내용과 횟수에 제한이 없으며, 2026년 5월 V3 모델이 새롭게 공개됐다.
설치에는 파이썬, uv, 깃(Git)이 필요하다. GPU 환경에 따라 설치 명령어가 다르며, 엔비디아 GPU 탑재 윈도 PC라면 'uv sync --extra cu128'을 실행하면 된다. CPU만 있는 환경이나 맥OS에서도 별도 명령어로 설치가 가능하다. 웹 UI는 서버 실행 후 브라우저에서 'localhost:7860'으로 접속해 사용한다.
V3의 주요 신기능은 세 가지다. 첫째, 참고 음성 파일을 업로드하면 해당 목소리와 유사한 음색으로 음성을 생성할 수 있다. 둘째, 초 단위로 출력 길이를 지정할 수 있다. 짧게 설정하면 빠르게, 길게 설정하면 천천히 말하는 방식으로 조절되며, 지나치게 짧거나 길면 음성이 깨지는 경우도 있다. 셋째, 문장에 이모지를 섞어 감정 표현을 제어할 수 있다. 이번 업데이트로 웹 UI에 이모지 팔레트가 추가돼 입력이 한층 편리해졌다. 놀람, 분노, 전화 너머 목소리, 콧노래 등 다양한 감정 표현을 지원한다.
별도 모델인 'Irodori-TTS-600M-v3-VoiceDesign'을 활용하면 참고 음성 없이 텍스트 설명만으로 원하는 목소리를 지정할 수 있다. 참고 음성을 준비하기 어려운 상황에서도 어느 정도의 음색 제어가 가능하다는 점에서 활용도가 높다.
다만 V3는 전반적으로 포멀한 음성에 치우친 경향이 있다. 애니메이션풍의 음성이 필요한 경우에는 웹 UI 좌상단 체크포인트 설정을 V2 모델로 전환하는 것도 방법이다. 소스코드와 로라(LoRA) 제작 관련 정보는 깃허브 공식 저장소에서 확인할 수 있다.


1
2
3
4
5