Ren(@FakeMaidenMaker):最近发现一个对 ComfyUI 用户很实用的语音项目：ComfyUI-VoxCPM2。如果你平时已经在 ComfyUI 里做图片、视频、工作流，现在想把多语言 TTS、声音设计、声音克隆也接进同一套节点系统，用这个项目就对了。它把 VoxCPM2 做成了 ComfyUI custom nodes，不用单独搭一套语音生成流程。 Github: https://t.co/F6BhQS9dfd 主要功能： 1. 支持 30 种语言的 TTS，不需要额外语言标签。 2. 输出 48kHz 音频，更适合做视频、播客、配音素材。 3. 支持用自然语言描述声音，比如年龄、性别、语气、风格。 4. 支持短音频参考的声音克隆。 5. 支持参考音频加 transcript 的更高精度克隆模式。 6. 支持 LoRA 训练和加载，方便做更稳定的特定声音。 7. 自动管理模型下载，模型会放到 ComfyUI 的 tts 目录。 8. 集成自动转写、参考音频降噪、响度归一化等辅助功能。

2026.05.13 18:27

最近发现一个对 ComfyUI 用户很实用的语音项目：ComfyUI-VoxCPM2。如果你平时已经在 ComfyUI 里做图片、视频、工作流，现在想把多语言 TTS、声音设计、声音克隆也接进同一套节点系统，用这个项目就对了。它把 VoxCPM2 做成了 ComfyUI custom nodes，不用单独搭一套语音生成流程。 Github: 主要功能： 1. 支持 30 种语言的 TTS，不需要额外语言标签。 2. 输出 48kHz 音频，更适合做视频、播客、配音素材。 3. 支持用自然语言描述声音，比如年龄、性别、语气、风格。 4. 支持短音频参考的声音克隆。 5. 支持参考音频加 transcript 的更高精度克隆模式。 6. 支持 LoRA 训练和加载，方便做更稳定的特定声音。 7. 自动管理模型下载，模型会放到 ComfyUI 的 tts 目录。 8. 集成自动转写、参考音频降噪、响度归一化等辅助功能。