Barret李靖(@Barret_China ):Codex 生成视频配音的做法也令人虎躯一震，它并没有按照文档指引（剪映+讯飞配音）来操作，而是采用工程手段，找到了一条比较通用的配音方案。 1）分帧截屏，将多图按序合成为一张图片（8x4，共 32 帧)，统一交给 AI 理解故事线，理解好了之后，AI 会生成每一关键帧的解说台词。 2）语音生成，它用到了开源的 text-to-speech 服务 rany2/edge-tts（10k star，这里应该是用到了我给它的全局设定，尽量“拿来主义”），将中英文台词分别合成为逐句音频，并严格对齐到时间轴。 3）视频合成，这个阶段基于 imageio/imageio-ffmpeg 提供的内置 ffmpeg，用 adelay + amix 完成配音与原声混音，再通过 subtitles 和 drawtext 一次性烧录双语字幕与缓动水印（视频里的水印被我处理掉了）。这个模式感觉也适合将国语内容直接转换成英文内容，😄

2026.05.04 09:27

Codex 生成视频配音的做法也令人虎躯一震，它并没有按照文档指引（剪映+讯飞配音）来操作，而是采用工程手段，找到了一条比较通用的配音方案。 1）分帧截屏，将多图按序合成为一张图片（8x4，共 32 帧)，统一交给 AI 理解故事线，理解好了之后，AI 会生成每一关键帧的解说台词。 2）语音生成，它用到了开源的 text-to-speech 服务 rany2/edge-tts（10k star，这里应该是用到了我给它的全局设定，尽量“拿来主义”），将中英文台词分别合成为逐句音频，并严格对齐到时间轴。 3）视频合成，这个阶段基于 imageio/imageio-ffmpeg 提供的内置 ffmpeg，用 adelay + amix 完成配音与原声混音，再通过 subtitles 和 drawtext 一次性烧录双语字幕与缓动水印（视频里的水印被我处理掉了）。这个模式感觉也适合将国语内容直接转换成英文内容，😄

显示更多