注册并分享邀请链接,可获得视频播放与邀请奖励。

Barret李靖
@Barret_China
AI Engineer | Lifelong Learner | Dad of 2 | Cloud Native | Sharing insights and experiences | 小胡子哥,一个有趣的灵魂
加入 March 2011
399 正在关注    81.1K 粉丝
Codex 生成视频配音的做法也令人虎躯一震,它并没有按照文档指引(剪映+讯飞配音)来操作,而是采用工程手段,找到了一条比较通用的配音方案。 1)分帧截屏,将多图按序合成为一张图片(8x4,共 32 帧),统一交给 AI 理解故事线,理解好了之后,AI 会生成每一关键帧的解说台词。 2)语音生成,它用到了开源的 text-to-speech 服务 rany2/edge-tts(10k star,这里应该是用到了我给它的全局设定,尽量“拿来主义”),将中英文台词分别合成为逐句音频,并严格对齐到时间轴。 3)视频合成,这个阶段基于 imageio/imageio-ffmpeg 提供的内置 ffmpeg,用 adelay + amix 完成配音与原声混音,再通过 subtitles 和 drawtext 一次性烧录双语字幕与缓动水印(视频里的水印被我处理掉了)。 这个模式感觉也适合将国语内容直接转换成英文内容,😄
显示更多