颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持，媲美真人对话

一家名为 Nari Labs 的两人创业公司发布了 Dia，这是一个拥有16亿参数的文本转语音（TTS）模型，旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称，Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能，并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。

Kim 在社交媒体 X 上表示，Dia 在质量上可与 NotebookLM 的播客功能媲美，并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露，该模型是在“零资金”的情况下构建的，并强调他们并非一开始就是人工智能专家，而是因为对 NotebookLM 的播客功能的热爱而启动了这个项目。他们尝试了市面上所有的 TTS API，但都不够自然。Kim 对谷歌允许他们使用其张量处理单元芯片（TPU）训练 Dia 表示感谢。

目前，Dia 的代码和权重已在 Hugging Face 和 Github 上开源，供用户下载和本地部署。个人用户也可以在 Hugging Face Space 上在线体验。

颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持，媲美真人对话-Mo 动态

高级控制和更多可定制功能
Dia 支持包括情绪语调、说话人标记和（笑）、(咳嗽)、(清嗓子)等非语言音频提示等细致功能，这些都仅通过纯文本实现。Nari Labs 的示例表明，Dia 能够正确解读这些标签，而其他模型往往无法可靠支持。该模型目前仅支持英语，声音在每次运行时都会有所不同，除非用户修改生成种子或提供音频提示进行语音克隆。

Nari Labs 在其网站上提供了 Dia 与 ElevenLabs Studio 和 Sesame CSM-1B 的对比示例，展示了 Dia 在处理自然节奏、非语言表达、多情感对话、复杂节奏内容以及通过音频提示延续语音风格等方面的优越性。Nari Labs 指出，Sesame 的演示可能使用了其内部更大参数的版本。

模型访问和技术规格
开发者可以从 Nari Labs 的 GitHub 存储库和 Hugging Face 模型页面获取 Dia。该模型基于 PyTorch2.0+ 和 CUDA12.6运行，需要约10GB 显存。Nari Labs 计划未来提供 CPU 支持和量化版本。

Dia 在完全开源的 Apache2.0许可证下分发，允许商业用途。Nari Labs 强调禁止将其用于不道德的用途，并鼓励负责任的实验。该项目的开发得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 资助计划以及其他相关研究的支持。Nari Labs 仅有两名工程师，但积极邀请社区参与贡献。

Github: https://github.com/nari-labs/dia

huggingface：https://huggingface.co/spaces/nari-labs/Dia-1.6B

来源https://www.aibase.com/zh/