TwiScan
人気
コミュニティ
ログイン
登録
English
日本語
한국의
简体中文
繁体中文
登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。
今すぐ登録
0xTodd ( thinking )
@0xTodd
热衷研究 | 在
@researchnothing
琢磨策略 | 在
@ebunker_eth
打包区块 | Long BTC, Love the World | NFA
参加 September 2016
3K
フォロー中
71.6K
ファン
0xTodd ( thinking )
@0xTodd
2026.04.07 01:44
Claude 确实很牛逼,但他不是神。而且 Anthropic 在语音这块的投入相比于其他家是偏少的。 所以这个博主恰好说反了,现在 GPT 的付费模式还有 Gemini,它们都是原生的语音模式(Audio In, Audio Out)。 Claude 反而是现在这三家里面,还在坚持用 STT、TTT、TTS 三段式 Pipeline 的 AI 。 而且这里的因果关系也有点问题。 Eleven Labs 确实是 Claude 的供应商之一,但是 Eleven Labs 主要做的是 TTS(文字生成语音),它是“嘴巴”。 那博主说的能听出他语速过快的问题,这个是“耳朵”部分,也就是 STT 干的工作。而 STT 并不是 Eleven Labs 的主要工作。 其实,传统的 STT 是能够给句子带有一些标记的。 比方说,她可能用 10 秒就说完了一大长串话,或者是它把长难句中间没有停顿,这些 STT 都会记录,并且给出她语速过快的结论。 真正练英语,我建议还是用 ChatGPT 的付费模式。 虽然它那个语音模式的内核可能还是 GPT-4o,但是原生的那种聊天方式,感受是很好的。
もっと見る
早见Hayami
@Hayami_kiraa
2026.04.06 17:55
我再一次被 Claude 震惊到了。 众多周知拿 AI 练英语已经不是什么新鲜事了,但主流软件基本都是这个 pipeline:STT (speech-to-text) → LLM processes text → TTS (text-to-speech). 即把语音转为文字先,再进行处理。所以在这过程中,真正口语里需要练习的清晰度、语速、情感含量都是无法被解析的。 但 Claude 是第一个 AI, 在和我语音对话的时候指出了我“语速过快”的问题。还把我之前一直说的痛点连起来了,然后给了我示范,哪句话需要暂停一下,呼吸一下,再继续。 顺便搜了一下,gemini 和 chatgpt 都没有做到这个功能,因为它们语音功能还是自研的。但 Claude 是外包给了一家第三方叫 ElevenLabs 的公司。这家公司2022年才成立,如今到110亿估值只用了不到4年,增长速度非常惊人。 这个功能实在太惊艳了,感觉语音交互上了一个全新的台阶。以后就用 Claude 做口语 coach 了!
もっと見る
0
0
6
24
2
コミュニティへ転送
人気のあるユーザー
𝐊𝐔𝐑𝐈𝐄𝐌𝐈/くりえみ
@kurita__emi
669K ファン
初音ミク 公式
@cfm_miku
714.6K ファン
New York Post
@nypost
3.9M ファン
2PM
@follow_2PM
1.2M ファン
Aqua水淼
@aqua_cosplay
1.9M ファン
ケイン・ヤリスギ「♂」
@kein_yarisugi
542.5K ファン
橋本環奈
@H_KANNA_0203
5M ファン
2PM Japan Official
@follow_2PMJP
140K ファン
半半子💖BANBANKO
@Banbanko_
522.4K ファン
千阳(ちよ)🎐
@tokio0131
961.3K ファン
高市早苗
@takaichi_sanae
2.9M ファン
有村架純's staff
@Kasumistaff
559.1K ファン
汐尔sama
@xiersama123
164.7K ファン
Helly Valentine💖
@hellyvalentine_
387.2K ファン
一劍浣春秋
@chee828
229.3K ファン