TwiScan
熱門
社區
登入
註冊
English
日本語
한국의
简体中文
繁体中文
註冊並分享邀請連結,可獲得影片播放與邀請獎勵。
立即註冊
宝玉
@dotey
Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.
加入 April 2007
1.6K
正在關注
218.4K
粉絲
宝玉
@dotey
2026.05.13 17:07
要做好字幕 SRT,断句最重要,其次是纠正拼写错误。这些可以借助 AI 或者 Agent 来做了。 不过前提是先生成单词级别的时间戳,这样才能在组合后拼回去,现在主流语音识别模型都支持输出 json 格式,每个单词都标注清楚start和end的timestamp。 英文断句很简单,只要找标点符号就可以切分成长度合适的。 但中文断句要难一些,中文语音用whisper生成,吐出来的是一大坨没有标点的,并且它的“word”不是一个汉字,而是几个汉字。 所以需要借助大模型去断句加标点,然后再重新对齐时间戳再拆分,就需要用一些比较复杂的代码算法辅助。当然理论上来说 Agent 也能帮你做,就是费 Token 些。 还有一个坑就是几个小时的访谈,大模型是没办法一次性处理的,需要分块,但是分块还要注意不能切分在一句话中间。 最后不一定要用 Whisper API,现在电脑跑 Whisper 模型还是足够。 如果是 Mac,推荐用 WhisperKit,支持word level timestamp,以及识别 speaker
顯示更多
Jianshuo Wang
@jianshuo
2026.05.13 14:29
Whisper API 直接吐的 SRT,几乎不能用。 两个失败模式: - 30 秒一大块字幕,没人读得完 - 安静段循环幻觉「你很难的」× 50 修法:response_format=verbose_json + timestamp_granularities[]=word,自己拼 cue。 别让不懂你需求的工具替你做边界决定。 源码:
顯示更多
0
0
16
87
15
轉發到社區
熱門用戶
乐老爺AV選
@HappyLok1157
101.5K 粉絲
一劍浣春秋
@chee828
229K 粉絲
币圈百科
@forevergalxy
12K 粉絲
小牛
@Xiaoniu6161
168.4K 粉絲
李老师不是你老师
@whyyoutouzhele
2.2M 粉絲
安宇泽
@DFHDJZY
16.2K 粉絲
qinbafrank
@qinbafrank
121.3K 粉絲
请叫我 MaiK
@maik2hello
93.3K 粉絲
龙心盐
@ssslumdunk
12.3K 粉絲
丰密
@KuiGas
107.8K 粉絲
Elizabeth
@Elizabeth2049_
125.9K 粉絲
东京不太热
@tiansai25497
286K 粉絲
AB Kuai.Dong
@_FORAB
122.5K 粉絲
杰克船长宏观策略
@macrotradecn
154.1K 粉絲
华尔街观察 Xtrader
@cnfinancewatch
106.3K 粉絲