註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

0xTodd ( thinking )
@0xTodd
热衷研究 | 在 @researchnothing 琢磨策略 | 在 @ebunker_eth 打包区块 | Long BTC, Love the World | NFA
加入 September 2016
3K 正在關注    71.6K 粉絲
Claude 确实很牛逼,但他不是神。而且 Anthropic 在语音这块的投入相比于其他家是偏少的。 所以这个博主恰好说反了,现在 GPT 的付费模式还有 Gemini,它们都是原生的语音模式(Audio In, Audio Out)。 Claude 反而是现在这三家里面,还在坚持用 STT、TTT、TTS 三段式 Pipeline 的 AI 。 而且这里的因果关系也有点问题。 Eleven Labs 确实是 Claude 的供应商之一,但是 Eleven Labs 主要做的是 TTS(文字生成语音),它是“嘴巴”。 那博主说的能听出他语速过快的问题,这个是“耳朵”部分,也就是 STT 干的工作。而 STT 并不是 Eleven Labs 的主要工作。 其实,传统的 STT 是能够给句子带有一些标记的。 比方说,她可能用 10 秒就说完了一大长串话,或者是它把长难句中间没有停顿,这些 STT 都会记录,并且给出她语速过快的结论。 真正练英语,我建议还是用 ChatGPT 的付费模式。 虽然它那个语音模式的内核可能还是 GPT-4o,但是原生的那种聊天方式,感受是很好的。
顯示更多
我再一次被 Claude 震惊到了。 众多周知拿 AI 练英语已经不是什么新鲜事了,但主流软件基本都是这个 pipeline:STT (speech-to-text) → LLM processes text → TTS (text-to-speech). 即把语音转为文字先,再进行处理。所以在这过程中,真正口语里需要练习的清晰度、语速、情感含量都是无法被解析的。 但 Claude 是第一个 AI, 在和我语音对话的时候指出了我“语速过快”的问题。还把我之前一直说的痛点连起来了,然后给了我示范,哪句话需要暂停一下,呼吸一下,再继续。 顺便搜了一下,gemini 和 chatgpt 都没有做到这个功能,因为它们语音功能还是自研的。但 Claude 是外包给了一家第三方叫 ElevenLabs 的公司。这家公司2022年才成立,如今到110亿估值只用了不到4年,增长速度非常惊人。 这个功能实在太惊艳了,感觉语音交互上了一个全新的台阶。以后就用 Claude 做口语 coach 了!
顯示更多