首页 > 人工智能 >阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

来源:ithome 2025-12-23 18:30:15
感谢xiayx网友 啊俊 的线索投递!

xiayx 12月23日消息,阿里通义大模型今日发布了新一代端到端语音交互模型 Fun-Audio-Chat。

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

长期稳定更新的攒劲资源: >>>点此立即查看<<<

阿里通义本次开源了 Fun-Audio-Chat 8B,该模型在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个榜单上“同尺寸模型排名第一”,综合性能超 GLM4-Voice、Kimi-Audio、Baichuan-Omni 等。

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

xiayx附 Fun-Audio-Chat 技术亮点如下:

端到端 S2S 架构:从语音输入直接生成语音输出,无需 ASR + LLM + TTS 多模块拼接,效率更高、延迟更低。

双分辨率设计:Shared LLM 层以 5Hz 帧率高效处理,SRH 以 25Hz 帧率生成高质量语音,GPU 计算开销降低近 50%。

百万小时多任务数据训练:覆盖音频理解、语音问答、情感识别、工具调用等真实场景,让模型更“接地气”。

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

阿里通义发布端到端语音交互模型 Fun-Audio-Chat,能猜出你的心情

阿里通义表示,Fun-Audio-Chat 可以提供“像朋友一样的对话体验”,感知用户的情绪,哪怕用户没直接说情绪,它也能从语气、语速、停顿里猜出心情,然后给出回应。

此外,Fun-Audio-Chat 可完成复杂任务,用户只需用自然语音下达指令,它就能自动调用函数。

xiayx附 Fun-Audio-Chat 8B 开源地址如下:

GitHub:https://github.com/FunAudioLLM/Fun-Audio-Chat

HuggingFace:https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B

ModelScope:https://modelscope.cn/FunAudioLLM/Fun-Audio-Chat-8B

Demo Page:https://funaudiollm.github.io/funaudiochat

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。