Zyphra 在 Apache 2.0 许可下发布了其 Zonos 语音合成 AI 模型的第一个测试版。该模型提供的工具包支持语音克隆功能,该功能允许模型以所需的声音合成语音,为此,提供说话者语音的 30 秒参考录音就足够了。支持英语、日语、中文、法语和德语的合成。
该模型涵盖 1.6 亿个参数,并根据 200 万小时的音频记录进行了训练。支持单调(如有声读物)和情绪化语音(如现场对话)的合成,以及基于给定前缀的合成(提供以语音开头的音频录音,模型在此基础上合成指定文本的延续,重现语音原始特征,例如继续低声说话)。
输出产生采样频率为 44kHz 的声音。支持插入合成插入物以模拟多人演讲或构建交互式对话,以及添加标签来控制语速、音调以及喜悦、恐惧、悲伤和愤怒等情绪的表达。
据开发人员称,生成的语音质量等于或优于所有公开的开放和商业合成系统(测试与 ElevenLabs、Cartesia 和 FishSpeech 进行了比较)。缺点之一是,在生成的声音材料的开始或结束时,会注意到更高浓度的声音伪影,例如咳嗽、呼吸声或吱吱声。
- 区域:
- 十一实验室:
- 笛卡尔:
- 鱼语 v1.5:
为了在您的系统上使用该模型,已经准备好了用于 Docker 系统的即用型映像,其中包括基于 Gradio 平台的用于管理合成的 Web 界面。要开始,只需使用命令“git clone https://github.com/Zyphra/Zonos.git”安装映像; cd 佐诺斯; docker compose up”,在浏览器中打开页面“http://localhost:7860”。对于操作,建议至少使用具有 3000 GB 视频内存的 6 系列 NVIDIA GPU。 RTX 4090 GPU 可提供实时合成所需两倍的性能。

来源: opennet.ru
