Codex 生成视频配音的做法也令人虎躯一震,它并没有按照文档指引(剪映+讯飞配音)来操作,而是采用工程手段,找到了一条比较通用的配音方案。
1)分帧截屏,将多图按序合成为一张图片(8x4,共 32 帧),统一交给 AI 理解故事线,理解好了之后,AI 会生成每一关键帧的解说台词。
2)语音生成,它用到了开源的 text-to-speech 服务 rany2/edge-tts(10k star,这里应该是用到了我给它的全局设定,尽量“拿来主义”),将中英文台词分别合成为逐句音频,并严格对齐到时间轴。
3)视频合成,这个阶段基于 imageio/imageio-ffmpeg 提供的内置 ffmpeg,用 adelay + amix 完成配音与原声混音,再通过 subtitles 和 drawtext 一次性烧录双语字幕与缓动水印(视频里的水印被我处理掉了)。
这个模式感觉也适合将国语内容直接转换成英文内容,😄
显示更多