移动客户端

新浪科技> 数码 > 正文

Nari Labs 开源 16 亿参数文字转语音 AI 模型 Dia，支持精细化调节音频的音色 / 情绪 / 语调

Nari Labs 开源 16 亿参数文字转语音 AI 模型 Dia，支持精细化调节音频的音色 / 情绪 / 语调

2025年04月24日 22:33 IT之家

新浪财经APP 缩小字体放大字体收藏微博微信

IT之家 4 月 24 日消息，由两名韩国研究者组建的 Nari Labs 工作室于前天在 GitHub 和 Hugging Face 开源了拥有 16 亿参数的文字转语音 AI 模型 Dia，目前相应模型已在 GitHub 上收获了超过 9300 颗星标，IT之家附项目 GitHub 页如下：https://github.com/nari-labs/dia

相应研究者声称 Dia 的音质相对于业界的文字转语音模型拥有更灵活的自由度，同时在生成的语音自然度方面超越了 ElevenLabs Studio、Sesame 等竞品。其支持对输出音频的音色、情绪和语调进行精细调节，还能模拟各种非语言交流（如大笑、咳嗽或清嗓子等）。

官方对比测试显示，Dia 在声调自然度、表情丰富度和语音节奏感方面，均优于专注自然语音合成的 ElevenLabs Studio 以及 Sesame 推出的对话语音模型 CSM-1B。

目前，Dia 仅支持英文，需要英伟达 RTX 3080 及以上显卡才能本地部署运行，不过用户也可以在 Hugging Face Spaces 线上平台中在线使用。Nari Labs 表示，后续将推出面向普通消费者的一键部署服务，进一步降低使用门槛，让更多人无缝体验高质量文本转语音技术。

关键词 : github AI it之家

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技

新浪数码

新浪手机

科学探索

苹果汇

新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

新浪首页新浪众测

语音播报返回顶部