註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

宝玉
@dotey
Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.
加入 April 2007
1.6K 正在關注    218.4K 粉絲
要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几个汉字。 所以需要借助大模型去断句加标点,然后再重新对齐时间戳再拆分,就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做,就是费 Token 些。 还有一个坑就是几个小时的访谈,大模型是没办法一次性处理的,需要分块,但是分块还要注意不能切分在一句话中间。 最后不一定要用 Whisper API,现在电脑跑 Whisper 模型还是足够。 如果是 Mac,推荐用 WhisperKit,支持word level timestamp,以及识别 speaker
顯示更多
Whisper API 直接吐的 SRT,几乎不能用。 两个失败模式: - 30 秒一大块字幕,没人读得完 - 安静段循环幻觉「你很难的」× 50 修法:response_format=verbose_json + timestamp_granularities[]=word,自己拼 cue。 别让不懂你需求的工具替你做边界决定。 源码:
顯示更多
0
16
87
15
轉發到社區