Dia:全新开源文本转语音模型,挑战ElevenLabs、OpenAI等巨头

Dia:全新开源文本转语音模型,挑战ElevenLabs、OpenAI等巨头

一家名为Nari Labs的双人初创公司推出了Dia,一个拥有16亿参数的文本转语音(TTS)模型,旨在直接从文本提示中生成自然对话。该模型的创造者之一Toby Kim声称,Dia在性能上超越了ElevenLabs、Google的NotebookLM AI播客生成产品等竞争对手的专有产品,甚至可能对OpenAI最新的gpt-4o-mini-tts构成威胁。

“Dia在质量上超越了ElevenLabs Studio和Sesame的开源模型,同时与NotebookLM的播客功能相媲美,”Kim在他的社交媒体账号X上发帖称。在另一篇帖子中,Kim透露该模型是在“零资金”的情况下开发的,并补充道:“我们一开始并不是AI专家。一切始于去年NotebookLM播客功能的发布,我们爱上了它。但我们想要更多——更多的声音控制,更多的脚本自由。我们尝试了市场上的每一个TTS API,但没有一个听起来像真正的人类对话。”

Kim还感谢Google为他们提供了Tensor Processing Unit(TPU)芯片,用于通过Google的Research Cloud训练Dia。

目前,Dia的代码和权重——即内部模型连接集——已可从Hugging Face或Github下载,并可在本地部署。个人用户可以在Hugging Face Space上尝试使用该模型生成语音。

Dia支持细腻的功能,如情感语调说话人标签非言语音频提示,所有这些都仅从纯文本中获取。用户可以用[S1]和S2]等标签标记说话人转换,并加入(笑声)、(咳嗽)或(清嗓子)等提示,以丰富对话中的非言语行为。根据Nari Labs的示例页面,这些标签在生成过程中会被Dia正确解释,这是其他可用模型所无法可靠支持的。

目前,该模型仅支持英语,且不与任何单一说话人的声音绑定,每次运行都会产生不同的声音,除非用户固定生成种子或提供音频提示。音频调节或声音克隆功能允许用户通过上传样本剪辑来引导语音语调和声音相似性。Nari Labs提供了示例代码和基于Gradio的演示,以便用户无需设置即可尝试此功能。

Nari Labs在其Notion网站上提供了由Dia生成的众多示例音频文件,并将其与其他领先的语音转文本竞争对手进行了比较,特别是ElevenLabs Studio和Oculus VR头盔联合创始人Brendan Iribe的Sesame CSM-1B模型。Nari Labs分享的并排示例显示,Dia在多个方面超越了竞争对手:

在标准对话场景中,Dia在处理自然节奏和非言语表达方面表现更佳。例如,在脚本末尾加上(笑声)时,Dia会解释并发出实际的笑声,而ElevenLabs和Sesame则输出文本替代品如“哈哈”。

在多轮情感对话中,Dia展现出更平滑的过渡和语调变化。在一项测试中,包含了一个戏剧性、情感充沛的紧急场景。Dia有效地呈现了紧迫感和说话人的压力,而竞争模型往往使表达平淡或失去了节奏。

Dia还独特地处理了仅包含非言语内容的脚本,如涉及咳嗽、吸鼻子和笑声的幽默交流。竞争模型无法识别这些标签或完全跳过了它们。

即使对于节奏复杂的内容如说唱歌词,Dia也能生成流畅、表演风格的语音,并保持节奏。这与ElevenLabs和Sesame 1B模型更单调或断断续续的输出形成了鲜明对比。

通过使用音频提示,Dia可以将说话人的语音风格扩展到新行中。一个使用对话片段作为种子的示例显示,Dia如何在整个脚本对话中保持了从样本中提取的语音特征。这一功能在其他模型中并不强大。

在一组测试中,Nari Labs注意到Sesame的最佳网站演示可能使用了模型的内部80亿参数版本,而不是公开的10亿参数检查点,这导致了宣传与实际性能之间的差距。

开发人员可以从Nari Labs的GitHub仓库和Hugging Face模型页面访问Dia。该模型在PyTorch 2.0+和CUDA 12.6上运行,并需要大约10GB的VRAM。在企业级GPU如NVIDIA A4000上进行推理时,每秒可处理约40个令牌。

虽然当前版本仅支持GPU,但Nari计划提供CPU支持和量化版本以提高可访问性。该初创公司还提供了Python库和CLI工具,以进一步简化部署过程。

Dia的灵活性为其开辟了从内容创作辅助技术合成配音的广泛用例。Nari Labs还在开发一个面向普通用户的Dia消费者版本,旨在让用户能够轻松地编辑和分享生成的对话。感兴趣的用户可以通过电子邮件注册等待列表以获取早期访问权限。

该模型在Apache 2.0许可证下完全开源,这意味着它可以用于商业目的——这对于企业或独立应用开发者来说显然是一个吸引力。Nari Labs明确禁止用于冒充个人、传播虚假信息或从事非法活动的用途,并鼓励负责任的实验,同时反对不道德的部署。

Dia的开发得到了Google TPU Research Cloud、Hugging Face的ZeroGPU资助计划以及之前SoundStorm、Parakeet和Descript Audio Codec工作的支持。

Nari Labs本身仅由两名工程师组成——一名全职和一名兼职——但他们积极邀请社区通过Discord服务器和GitHub做出贡献。凭借对表达质量、可重复性和开放访问的明确关注,Dia为生成语音模型领域增添了一种独特的新声音。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/dia-quan-xin-kai-yuan-wen-ben-zhuan-yu-yin-mo-xing-tiao

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月23日
Next 2025年4月23日

相关推荐

发表回复

Please Login to Comment