最近发现一个对 ComfyUI 用户很实用的语音项目:ComfyUI-VoxCPM2。
如果你平时已经在 ComfyUI 里做图片、视频、工作流,现在想把多语言 TTS、声音设计、声音克隆也接进同一套节点系统,用这个项目就对了。
它把 VoxCPM2 做成了 ComfyUI custom nodes,不用单独搭一套语音生成流程。
Github:
主要功能:
1. 支持 30 种语言的 TTS,不需要额外语言标签。
2. 输出 48kHz 音频,更适合做视频、播客、配音素材。
3. 支持用自然语言描述声音,比如年龄、性别、语气、风格。
4. 支持短音频参考的声音克隆。
5. 支持参考音频加 transcript 的更高精度克隆模式。
6. 支持 LoRA 训练和加载,方便做更稳定的特定声音。
7. 自动管理模型下载,模型会放到 ComfyUI 的 tts 目录。
8. 集成自动转写、参考音频降噪、响度归一化等辅助功能。
顯示更多