Dia：全新开源文本转语音模型，挑战ElevenLabs、OpenAI等巨头

王浩然 • 2025年4月23日下午12:00 • AI前沿 • 418 views

一家名为Nari Labs的双人初创公司推出了Dia，一个拥有16亿参数的文本转语音（TTS）模型，旨在直接从文本提示中生成自然对话。该模型的创造者之一Toby Kim声称，Dia在性能上超越了ElevenLabs、Google的NotebookLM AI播客生成产品等竞争对手的专有产品，甚至可能对OpenAI最新的gpt-4o-mini-tts构成威胁。

“Dia在质量上超越了ElevenLabs Studio和Sesame的开源模型，同时与NotebookLM的播客功能相媲美，”Kim在他的社交媒体账号X上发帖称。在另一篇帖子中，Kim透露该模型是在“零资金”的情况下开发的，并补充道：“我们一开始并不是AI专家。一切始于去年NotebookLM播客功能的发布，我们爱上了它。但我们想要更多——更多的声音控制，更多的脚本自由。我们尝试了市场上的每一个TTS API，但没有一个听起来像真正的人类对话。”

Kim还感谢Google为他们提供了Tensor Processing Unit（TPU）芯片，用于通过Google的Research Cloud训练Dia。

目前，Dia的代码和权重——即内部模型连接集——已可从Hugging Face或Github下载，并可在本地部署。个人用户可以在Hugging Face Space上尝试使用该模型生成语音。

Dia支持细腻的功能，如情感语调、说话人标签和非言语音频提示，所有这些都仅从纯文本中获取。用户可以用[S1]和S2]等标签标记说话人转换，并加入（笑声）、（咳嗽）或（清嗓子）等提示，以丰富对话中的非言语行为。根据Nari Labs的示例页面，这些标签在生成过程中会被Dia正确解释，这是其他可用模型所无法可靠支持的。

目前，该模型仅支持英语，且不与任何单一说话人的声音绑定，每次运行都会产生不同的声音，除非用户固定生成种子或提供音频提示。音频调节或声音克隆功能允许用户通过上传样本剪辑来引导语音语调和声音相似性。Nari Labs提供了示例代码和基于Gradio的演示，以便用户无需设置即可尝试此功能。

Nari Labs在其Notion网站上提供了由Dia生成的众多示例音频文件，并将其与其他领先的语音转文本竞争对手进行了比较，特别是ElevenLabs Studio和Oculus VR头盔联合创始人Brendan Iribe的Sesame CSM-1B模型。Nari Labs分享的并排示例显示，Dia在多个方面超越了竞争对手：

在标准对话场景中，Dia在处理自然节奏和非言语表达方面表现更佳。例如，在脚本末尾加上（笑声）时，Dia会解释并发出实际的笑声，而ElevenLabs和Sesame则输出文本替代品如“哈哈”。

在多轮情感对话中，Dia展现出更平滑的过渡和语调变化。在一项测试中，包含了一个戏剧性、情感充沛的紧急场景。Dia有效地呈现了紧迫感和说话人的压力，而竞争模型往往使表达平淡或失去了节奏。

Dia还独特地处理了仅包含非言语内容的脚本，如涉及咳嗽、吸鼻子和笑声的幽默交流。竞争模型无法识别这些标签或完全跳过了它们。

即使对于节奏复杂的内容如说唱歌词，Dia也能生成流畅、表演风格的语音，并保持节奏。这与ElevenLabs和Sesame 1B模型更单调或断断续续的输出形成了鲜明对比。

通过使用音频提示，Dia可以将说话人的语音风格扩展到新行中。一个使用对话片段作为种子的示例显示，Dia如何在整个脚本对话中保持了从样本中提取的语音特征。这一功能在其他模型中并不强大。

在一组测试中，Nari Labs注意到Sesame的最佳网站演示可能使用了模型的内部80亿参数版本，而不是公开的10亿参数检查点，这导致了宣传与实际性能之间的差距。

开发人员可以从Nari Labs的GitHub仓库和Hugging Face模型页面访问Dia。该模型在PyTorch 2.0+和CUDA 12.6上运行，并需要大约10GB的VRAM。在企业级GPU如NVIDIA A4000上进行推理时，每秒可处理约40个令牌。

虽然当前版本仅支持GPU，但Nari计划提供CPU支持和量化版本以提高可访问性。该初创公司还提供了Python库和CLI工具，以进一步简化部署过程。

Dia的灵活性为其开辟了从内容创作到辅助技术和合成配音的广泛用例。Nari Labs还在开发一个面向普通用户的Dia消费者版本，旨在让用户能够轻松地编辑和分享生成的对话。感兴趣的用户可以通过电子邮件注册等待列表以获取早期访问权限。

该模型在Apache 2.0许可证下完全开源，这意味着它可以用于商业目的——这对于企业或独立应用开发者来说显然是一个吸引力。Nari Labs明确禁止用于冒充个人、传播虚假信息或从事非法活动的用途，并鼓励负责任的实验，同时反对不道德的部署。

Dia的开发得到了Google TPU Research Cloud、Hugging Face的ZeroGPU资助计划以及之前SoundStorm、Parakeet和Descript Audio Codec工作的支持。

Nari Labs本身仅由两名工程师组成——一名全职和一名兼职——但他们积极邀请社区通过Discord服务器和GitHub做出贡献。凭借对表达质量、可重复性和开放访问的明确关注，Dia为生成语音模型领域增添了一种独特的新声音。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/dia-quan-xin-kai-yuan-wen-ben-zhuan-yu-yin-mo-xing-tiao

Like (0)

王浩然作者

0 0

‌Relyance AI推出数据旅程平台，为企业数据打造“X光”视野，AI合规时间缩减80%‌

Previous 2025年4月23日

SWiRL：打造如顶尖问题解决者般的AI商业应用新篇章

Next 2025年4月23日

AI前沿

智能体 AI（Agentic AI）的崛起及其核心支撑架构

过去数年人工智能领域的进步多依赖 “规模扩张”—— 更大的模型、更庞大的数据集，但随着 2026 年临近，这种模式已显现边际效益递减：模型参数持续增加、演示视频愈发炫酷，却难以转化…

王浩然
2025年11月29日
000
AI前沿

针对人工智能模型的对抗性攻击日益增多：您现在应该怎么做？

随着越来越多的企业承认经历过与人工智能相关的安全事件，对机器学习 (ML) 模型的对抗性攻击的强度、频率和复杂程度正在不断提高。人工智能的广泛应用导致威胁面迅速扩大，所有企业都难…

王浩然
2024年9月22日
000
AI前沿

人工智能可以帮助 NetOps 完成的 5 项网络任务以及人工智能无法完成的 5 项网络任务

随着网络基础设施的复杂性和规模持续呈指数级增长，当今的数字环境正在迅速发展。这种激增使得有效管理网络变得比以往任何时候都更具挑战性。虽然有各种各样的工具可以帮助 NetOps 团队…

点点
2024年9月27日
000
AI前沿

雨造者与Atmo携手，利用AI技术提升云降水效率‌

在气象科技日新月异的今天，两家创新企业——专注于云降水增强的雨造者（Rainmaker）与擅长AI气象预测的Atmo宣布达成战略合作。这一合作旨在通过整合双方的技术优势，更精准地识…

王浩然
2025年7月16日
000
AI前沿

AI 内存需求激增迫使美光退出消费级市场：半导体行业经济格局迎来转折点

1978 年诞生于美国爱达荷州博伊西一间牙科诊所地下室的美光科技（Micron），历经近半个世纪发展已成为全球半导体巨头之一，而如今该公司做出的一项重大决策 —— 彻底退出消费级内…

王浩然
2025年12月9日
000
AI前沿

人工智能个性化陷阱：编织现实还是扭曲现实？

人工智能正经历着人类历史上最伟大的认知卸载过程。我们曾将记忆卸载给文字，将计算卸载给计算器，将导航卸载给GPS。如今，我们开始将判断、综合甚至意义构建卸载给那些会说我们语言、学习我…

王浩然
2025年7月23日
000
AI前沿

通过官方API越狱ChatGPT及其他闭源AI模型的新研究

根据最新研究，ChatGPT和其他主流AI模型可以通过官方微调渠道被重新训练，从而绕过安全规则，提供关于如何实施恐怖行动、进行网络犯罪或其他”被禁止”行为的…

王浩然
2025年7月24日
000
AI前沿

2025年，9家美国AI初创企业融资超1亿美元‌

2025年，美国AI领域展现出了前所未有的活力，有9家初创企业在本年度成功融资超过1亿美元。这一融资热潮不仅彰显了资本对AI技术的青睐，也预示着AI行业将迎来更加蓬勃的发展。这些…

王浩然
2025年3月11日
000
AI前沿

OpenAI撤回ChatGPT谄媚更新，并解释问题所在

近日，OpenAI宣布撤回了其ChatGPT中GPT-4o模型的最新更新，这一举动是在广泛报告指出该模型变得过于谄媚和一味顺从之后做出的。用户发现，ChatGPT开始无条件地赞美几…

王浩然
2025年5月1日
000
AI前沿

Anthropic推出Claude Chrome扩展测试版：浏览器控制型AI的安全困境与商业博弈‌

当Anthropic在2025年8月宣布为Chrome浏览器推出Claude AI扩展的限量测试时，这场看似寻常的技术发布实则揭示了AI产业正在经历的深刻转型。这家以安全谨慎著称的…

王浩然
2025年8月28日
000
AI前沿

Meta AI 现在可以理解和编辑你的照片

在人工智能照片编辑方面，Meta AI 开始赶上谷歌。周三，在Meta Connect 2024 大会上，这家科技巨头宣布，Meta AI 现在将能够使用人工智能技术帮助您编辑照片…

王浩然
2024年9月28日
000
AI前沿

2025 年 AI 预测主导行业讨论，2026 年 CIO 换挡前行

在科技浪潮持续奔涌的当下，人工智能（AI）无疑是最受瞩目的焦点之一。2025 年，关于 AI 的各种预测充斥着行业的每个角落，成为众人热议的核心话题。然而，进入 2026 年，首席…

王浩然
2026年1月21日
000
AI前沿

Napkin AI 的人工智能代理“设计机构”正在改变专业人士创作图形的方式

平面设计公司Napkin AI正在垂直 AI 代理应用这一令人兴奋的前沿领域开辟一条独特的道路。用户可以在 Napkin AI 的网站上输入文本，其模型会在五秒内生成代表文本的图…

王浩然
2025年2月12日
000
AI前沿

克服人工智能基础设施部署障碍的 5 种方法

如今，企业面临着利用人工智能作为竞争优势的巨大压力，但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能，但障碍使另外 40% 的企业处于探索和实验阶段。尽管人…

王浩然
2024年11月1日
000
AI前沿

RAG是否会让大型语言模型（LLMs）变得不安全？彭博研究揭示潜在风险

在人工智能（AI）领域，检索增强生成（Retrieval Augmented Generation，简称RAG）技术被广泛用于提升大型语言模型（Large Language Mod…

王浩然
2025年4月29日
000
AI前沿

微软小型 AI 模型击败大型模型：效率之王 Phi-4

微软推出了一款新的人工智能模型，该模型实现了卓越的数学推理能力，同时使用的计算资源远少于其大型竞争对手。拥有 140 亿个参数的Phi-4经常胜过谷歌Gemini Pro 1.5等…

王浩然
2024年12月17日
000
AI前沿

构建 AI 韧性：迎接信息新时代的核心生存能力

人工智能正以不可逆的态势重塑信息生产、传播与消费的全链条 —— 生成式 AI 能在秒级产出海量文本、图像、视频内容，大语言模型成为信息获取的核心入口，这既极大提升了信息流通效率，也…

王浩然
2025年12月12日
000
AI前沿

Pictionary 和 Minecraft 可以测试 AI 模型的创造力吗？

大多数人工智能基准测试并没有告诉我们太多信息。它们提出的问题可以通过死记硬背来解决，或者涉及与大多数用户不相关的主题。因此一些人工智能爱好者开始通过游戏来测试人工智能解决问题的能…

王浩然
2024年11月6日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

索尼与 AI Singapore 合作攻读 SEA-LION 法学硕士学位

索尼研究公司和新加坡人工智能研究所(AISG) 将合作研究 SEA-LION 系列大型语言模型 (LLM)。 SEA-LION 是“东南亚语言一体化网络”的缩写，旨在提高人工智能模…

点点
2024年9月11日
000

发表回复

Please Login to Comment

Dia：全新开源文本转语音模型，挑战ElevenLabs、OpenAI等巨头

相关推荐

发表回复