字节跳动开源了个桌面 AI Agent,直接用自然语言控制你的电脑
你说"帮我打开 VS Code 的自动保存功能",它就真的去点开设置帮你改
说"帮我在 Priceline 订明天去东京的机票",它就真的去操作浏览器完成预订
GitHub:
核心原理很直接:
截屏 → 理解屏幕内容 → 推理下一步动作 → 执行点击/输入/滚动 → 再截屏 → 循环到任务完成
本质上是 Anthropic Computer Use 的开源替代
它交付了两个产品:
UI-TARS Desktop:原生应用,支持 macOS 和 Windows
Agent TARS:通用框架,支持任意多模态 LLM(Claude、GPT、豆包都行),还能接 MCP 工具服务器
感觉以后连鼠标都不用动了
显示更多