宝玉(@dotey ):要做好字幕 SRT，断句最重要，其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。不过前提是先生成单词级别的时间戳，这样才能在组合后拼回去，现在主流语音识别模型都支持输出 json 格式，每个单词都标注清楚start和end的timestamp。英文断句很简单，只要找标点符号就可以切分成长度合适的。但中文断句要难一些，中文语音用whisper生成，吐出来的是一大坨没有标点的，并且它的“word”不是一个汉字，而是几个汉字。所以需要借助大模型去断句加标点，然后再重新对齐时间戳再拆分，就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做，就是费 Token 些。还有一个坑就是几个小时的访谈，大模型是没办法一次性处理的，需要分块，但是分块还要注意不能切分在一句话中间。最后不一定要用 Whisper API，现在电脑跑 Whisper 模型还是足够。如果是 Mac，推荐用 WhisperKit，支持word level timestamp，以及识别 speaker

2026.05.13 17:07

要做好字幕 SRT，断句最重要，其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。不过前提是先生成单词级别的时间戳，这样才能在组合后拼回去，现在主流语音识别模型都支持输出 json 格式，每个单词都标注清楚start和end的timestamp。英文断句很简单，只要找标点符号就可以切分成长度合适的。但中文断句要难一些，中文语音用whisper生成，吐出来的是一大坨没有标点的，并且它的“word”不是一个汉字，而是几个汉字。所以需要借助大模型去断句加标点，然后再重新对齐时间戳再拆分，就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做，就是费 Token 些。还有一个坑就是几个小时的访谈，大模型是没办法一次性处理的，需要分块，但是分块还要注意不能切分在一句话中间。最后不一定要用 Whisper API，现在电脑跑 Whisper 模型还是足够。如果是 Mac，推荐用 WhisperKit，支持word level timestamp，以及识别 speaker

Jianshuo Wang@jianshuo

2026.05.13 14:29

Whisper API 直接吐的 SRT，几乎不能用。两个失败模式： - 30 秒一大块字幕，没人读得完 - 安静段循环幻觉「你很难的」× 50 修法：response_format=verbose_json + timestamp_granularities[]=word，自己拼 cue。别让不懂你需求的工具替你做边界决定。源码：