Vincent | 信号＞噪音(@VincentLogic):美团 LongCat 团队刚发布了 LongCat-Video-Avatar 1.5，一个开源的音频驱动虚拟人生成框架。输入一张照片和一个音频文件，就能生成对口型的说话视频。解决了现有 AI 头像工具的几个常见问题： - 面孔变形 - 口型不同步 - 身份漂移 - 长视频生成不稳定支持新闻播报、教育、娱乐、电商等场景，中英文都可以，有写实和动画两种风格。 MIT 许可证，可以商用。 1.5 版本升级了 Whisper-Large 模型，口型同步更准确，推理速度也更快。之前做这种视频需要摄制组、工作室和后期剪辑，现在一个开源工具就能搞定。对于那些收费几千美元的工具来说，这相当于来了个免费竞争对手。 GitHub 仓库链接在评论区。

2026.06.08 06:54

美团 LongCat 团队刚发布了 LongCat-Video-Avatar 1.5，一个开源的音频驱动虚拟人生成框架。输入一张照片和一个音频文件，就能生成对口型的说话视频。解决了现有 AI 头像工具的几个常见问题： - 面孔变形 - 口型不同步 - 身份漂移 - 长视频生成不稳定支持新闻播报、教育、娱乐、电商等场景，中英文都可以，有写实和动画两种风格。 MIT 许可证，可以商用。 1.5 版本升级了 Whisper-Large 模型，口型同步更准确，推理速度也更快。之前做这种视频需要摄制组、工作室和后期剪辑，现在一个开源工具就能搞定。对于那些收费几千美元的工具来说，这相当于来了个免费竞争对手。 GitHub 仓库链接在评论区。