首页 > 人工智能 >微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

来源：ithome 2025-08-27 08:02:02

根据网友“地板轰鸣”的线索投递，科技媒体marktechpost于8月25日发布了一篇博文，其中提到微软已正式发布其开源文本转语音（TTS）模型VibeVoice-1.5B。这款模型功能强大，能够一次性生成最长达90分钟的自然语音，并且支持多达四位不同说话者的声音合成，甚至还能实现跨语言和歌声合成。

在技术架构层面，VibeVoice-1.5B以1.5亿参数的Qwen2.5语言模型为基础，巧妙地融合了声学与语义双分词器（Tokenizer）技术，并以7.5Hz的低帧率进行高效处理。

具体来看，其声学分词器采用了独特的σ-VAE结构，可以将24kHz的原始音频数据高效压缩至原来的3200分之一。而语义分词器则通过语音识别代理任务进行训练，旨在精准保留对话的语义信息。在解码端，模型搭载了一个拥有1.23亿参数的扩散解码器，并结合了分类器自由引导（classifier-free guidance）和DPM-Solver等先进技术，从而显著提升了语音的音质和细节表现力。

微软开源 VibeVoice-1.5B 音频模型：可生成 90 分钟 4 人聊天语音

为了确保在长篇对话中语音的连贯性和说话人身份的一致性，VibeVoice-1.5B在训练过程中逐步扩展了上下文的长度，从最初的4k Tokens提升至65k Tokens。值得一提的是，其精妙的架构设计还支持多位说话者轮流发言，能够模拟出真实自然的对话场景。此外，模型还能够在流式模式下生成长时间音频，这无疑为未来的实时文本转语音技术奠定了坚实的基础。

当然，VibeVoice-1.5B目前也存在一些局限性。例如，它目前仅支持英语和中文，在处理其他语言时可能会出现不够准确或不恰当的内容。同时，模型尚不支持说话人语音重叠，也无法生成背景音效或音乐。微软对此明确规定，严禁将该模型用于声音冒充、传播虚假信息或绕过身份验证等不法用途，并郑重提醒所有用户必须遵守相关法律法规，并在使用AI生成内容时清晰标明其来源。

微软方面表示，VibeVoice-1.5B模型主要面向科研机构和开发者社区，非常适合应用于播客制作、对话式人工智能以及各类语音内容生成等领域。展望未来，微软计划推出参数规模更大的7B版本，届时将有望支持更低延迟的交互和更高保真度的实时合成，进一步拓宽其应用场景。

xiayx附上参考地址

微软 VibeVoice-1.5B 技术报告

Hugging Face

GitHub

侠游戏发布此文仅为了传递信息，不代表侠游戏网站认同其观点或证实其描述