美团 LongCat 团队刚发布了 LongCat-Video-Avatar 1.5,一个开源的音频驱动虚拟人生成框架。
输入一张照片和一个音频文件,就能生成对口型的说话视频。
解决了现有 AI 头像工具的几个常见问题:
- 面孔变形
- 口型不同步
- 身份漂移
- 长视频生成不稳定
支持新闻播报、教育、娱乐、电商等场景,中英文都可以,有写实和动画两种风格。
MIT 许可证,可以商用。
1.5 版本升级了 Whisper-Large 模型,口型同步更准确,推理速度也更快。
之前做这种视频需要摄制组、工作室和后期剪辑,现在一个开源工具就能搞定。
对于那些收费几千美元的工具来说,这相当于来了个免费竞争对手。
GitHub 仓库链接在评论区。
顯示更多