阿里两款千问语音新模型齐发:动物也能“原声”说人话了!
(来源:快科技)
快科技12月24日消息,阿里今日升级语音模型家族Qwen3-TTS,发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。
在生成效果上,全新模型的表现显著超越GPT-4o。
Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿,甚至让动物"原生"开口说人话。
其音色自然、效果稳定、生成高效,可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。
其中,音色创造模型支持通过自然语言描述生成定制化的音色形象,具有极强的可控生成能力。
在指令遵循评测InstructTTS-Eval中,Qwen3-TTS综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类模型。
在强调表达一致性与沉浸感的角色扮演测试中,模型整体效果超过Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于"音色模仿",仅需3秒的语音样本,即可精准复刻原始声线。
在MiniMax TTS Multilingual Test Set测试集中,Qwen3-TTS-VC显示出其在多语言语音准确性与稳定性方面的优势。
它的平均词错误率(WER)指标上表现突出,整体结果全面优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。

此外,Qwen3-TTS-VC 还可自动生成英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语音。
值得注意的是,它连动物音色也能复刻,只需录入家中宠物的原始声音,就能用模型让它"开口说人话"。
目前,两款模型均在阿里云百炼平台上架Flash版本API,响应速度极快,可完全满足工业级语音合成需求。
千问语音生成模型系列Qwen3-TTS仍在不断升级,目前可支持50种音色,10大主流语言和闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言,可真实还原地方口音特色与语言神韵。

相关推荐
阿里两款千问语音新模型齐发:动物也能“原声”说人话了!
阿里通义千问主力模型直降97%,大模型赛道也卷起来了
阿里云正在实验将千问大模型接入工业机器人
阿里开源千问3向量模型,性能超越谷歌、OpenAI
晚点独家丨千问 app,阿里要怎么做中国的 “ChatGPT”
独家|阿里上线“千问智学”App,加码AI教育
阿里云千问大模型操控机器人:加个buff,解除封印
对话阿里云CTO周靖人:开源是唯一出路,通义千问和ChatGPT互有胜负
千问投资夺冠引发股民下载?千问回应:不能简单照搬,注意投资风险
联发科携手阿里云在天玑移动平台完成通义千问大模型端侧部署
网址: 阿里两款千问语音新模型齐发:动物也能“原声”说人话了! http://www.xishuta.com/newsview145560.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
