microsoft/VibeVoice

Published:

github.com/microsoft/VibeVoice

뭐 하는 거

Microsoft가 낸 long-form 음성 모델 패밀리. 7.5 Hz continuous speech tokenizer가 핵심이라 긴 오디오를 한 번에 처리할 수 있는 게 차별점. 세 가지 체크포인트가 같이 풀려있음.

  • VibeVoice-ASR (7B) — 최대 60분 연속 음성 한 패스 인식. speaker id, timestamp, custom hotword.
  • VibeVoice-TTS (1.5B) — 최대 90분 분량의 다중 화자(최대 4명) 대화 합성, 다국어.
  • VibeVoice-Realtime (0.5B) — 스트리밍 TTS, ~300ms latency.

용도: 회의/팟캐스트 전체 전사, 긴 내러티브 TTS, 실시간 음성 에이전트. 체크포인트는 Hugging Face.

연구 목적 위주로 공개돼 있어서 상업 배포 전에는 자체 테스트 권고.

사용 예시

from transformers import AutoProcessor, AutoModelForCausalLM

processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")
model = AutoModelForCausalLM.from_pretrained("microsoft/VibeVoice-ASR")