通宵手搓了个逆天的全网首创“X Skill”,
去睡前先大致说下:
实时语音Agent,不仅能拉它上 X Space 跟多人语音,
而且还能在语音中,光动嘴就指挥它在 X 上“做事”。
如图1,在实时语音中,
我(或者甚至其他发言人)可以跟Agent说:
“你搜一下 X 上关于减肥针风险的推文,
把最靠谱的推文 URL 发到这个 Space 下的评论区。”
然后它就真的做到了!(图2)
核心是:
Grok 的各个模型,包括实时语音模型API,
都具有自然语言发起“Function Calling”的能力
(图3)
用这个去调用 X 账号的OAuth,那么就相当于:
利用 Grok API 原生自带对 X 的自然语义检索能力
乘以
X API的读写能力(发推甚至发私信)
这两个互相一乘,可玩空间太大了。
不得不说,
OpenAI GPT-Realtime-2 实时语音模型再好,
可是架不住
Grok Realtime API 实时语音API能玩转X啊。
三言两语说的不是很清楚,
后续我再让 Codex 整理个更清楚的说明书。
明后天我可以找时间另开 Space 公开演示说明。
显示更多