首页 > 人工智能 >微软开源 VibeVoice-1.5B 音频模型:可生成 90 分钟 4 人聊天语音

微软开源 VibeVoice-1.5B 音频模型:可生成 90 分钟 4 人聊天语音

来源:ithome 2025-08-27 08:02:02

根据网友“地板轰鸣”的线索投递,科技媒体marktechpost于8月25日发布了一篇博文,其中提到微软已正式发布其开源文本转语音(TTS)模型VibeVoice-1.5B。这款模型功能强大,能够一次性生成最长达90分钟的自然语音,并且支持多达四位不同说话者的声音合成,甚至还能实现跨语言和歌声合成。

在技术架构层面,VibeVoice-1.5B以1.5亿参数的Qwen2.5语言模型为基础,巧妙地融合了声学与语义双分词器(Tokenizer)技术,并以7.5Hz的低帧率进行高效处理。

微软开源 VibeVoice-1.5B 音频模型:可生成 90 分钟 4 人聊天语音

具体来看,其声学分词器采用了独特的σ-VAE结构,可以将24kHz的原始音频数据高效压缩至原来的3200分之一。而语义分词器则通过语音识别代理任务进行训练,旨在精准保留对话的语义信息。在解码端,模型搭载了一个拥有1.23亿参数的扩散解码器,并结合了分类器自由引导(classifier-free guidance)和DPM-Solver等先进技术,从而显著提升了语音的音质和细节表现力。

微软开源 VibeVoice-1.5B 音频模型:可生成 90 分钟 4 人聊天语音

为了确保在长篇对话中语音的连贯性和说话人身份的一致性,VibeVoice-1.5B在训练过程中逐步扩展了上下文的长度,从最初的4k Tokens提升至65k Tokens。值得一提的是,其精妙的架构设计还支持多位说话者轮流发言,能够模拟出真实自然的对话场景。此外,模型还能够在流式模式下生成长时间音频,这无疑为未来的实时文本转语音技术奠定了坚实的基础。

当然,VibeVoice-1.5B目前也存在一些局限性。例如,它目前仅支持英语和中文,在处理其他语言时可能会出现不够准确或不恰当的内容。同时,模型尚不支持说话人语音重叠,也无法生成背景音效或音乐。微软对此明确规定,严禁将该模型用于声音冒充、传播虚假信息或绕过身份验证等不法用途,并郑重提醒所有用户必须遵守相关法律法规,并在使用AI生成内容时清晰标明其来源。

微软方面表示,VibeVoice-1.5B模型主要面向科研机构和开发者社区,非常适合应用于播客制作、对话式人工智能以及各类语音内容生成等领域。展望未来,微软计划推出参数规模更大的7B版本,届时将有望支持更低延迟的交互和更高保真度的实时合成,进一步拓宽其应用场景。

xiayx附上参考地址

微软 VibeVoice-1.5B 技术报告

Hugging Face

GitHub

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。