生成的质量真心不错,需要TTS的可以试试。
Spark-TTS
核心特点:
基于LLM的高效TTS系统:完全基于Qwen2.5构建,无需额外生成模型
零样本声音克隆:无需特定训练数据即可复制说话者声音
双语支持:同时支持中文和英文,跨语言场景表现优秀
可控语音生成:可调整性别、音高、语速等参数创建自定义声音
技术亮点:
直接从LLM预测的代码重建音频,简化处理流程
支持Nvidia Triton推理服务,适合生产环境部署
性能优异,在L20 GPU上实时因子(RTF)低至0.0704
#
AI# #
AIAgent#