一家名为 Nari Labs 的两人创业公司发布了 Dia,这是一个拥有16亿参数的文本转语音 (TTS) 模型,旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称,Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能,并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。
Kim 在社交媒体 X 上表示,Dia 在质量上可与 NotebookLM 的播客功能媲美,并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露,该模型是在“零资金”的情况下构建的,并强调他们并非一开始就是人工智能专家,而是因为对 NotebookLM 的播客功能的热爱而启动了这个项目。他们尝试了市面上所有的 TTS API,但都不够自然。Kim 对谷歌允许他们使用其张量处理单元芯片 (TPU) 训练 Dia 表示感谢。
目前,Dia 的代码和权重已在 Hugging Face 和 Github 上开源,供用户下载和本地部署。个人用户也可以在 Hugging Face Space 上在线体验。
高级控制和更多可定制功能
Dia 支持包括情绪语调、说话人标记和(笑)、(咳嗽)、(清嗓子)等非语言音频提示等细致功能,这些都仅通过纯文本实现。Nari Labs 的示例表明,Dia 能够正确解读这些标签,而其他模型往往无法可靠支持。该模型目前仅支持英语,声音在每次运行时都会有所不同,除非用户修改生成种子或提供音频提示进行语音克隆。
Nari Labs 在其网站上提供了 Dia 与 ElevenLabs Studio 和 Sesame CSM-1B 的对比示例,展示了 Dia 在处理自然节奏、非语言表达、多情感对话、复杂节奏内容以及通过音频提示延续语音风格等方面的优越性。Nari Labs 指出,Sesame 的演示可能使用了其内部更大参数的版本。
模型访问和技术规格
开发者可以从 Nari Labs 的 GitHub 存储库和 Hugging Face 模型页面获取 Dia。该模型基于 PyTorch2.0+ 和 CUDA12.6运行,需要约10GB 显存。Nari Labs 计划未来提供 CPU 支持和量化版本。
Dia 在完全开源的 Apache2.0许可证下分发,允许商业用途。Nari Labs 强调禁止将其用于不道德的用途,并鼓励负责任的实验。该项目的开发得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 资助计划以及其他相关研究的支持。Nari Labs 仅有两名工程师,但积极邀请社区参与贡献。
Github: https://github.com/nari-labs/dia
huggingface:https://huggingface.co/spaces/nari-labs/Dia-1.6B
评论 (0)