刚看到字节开源的这个项目,直接惊了。
就说一句话,AI 自己看着屏幕、动鼠标、敲键盘,在任何软件里帮你完成任务。
它不是靠固定坐标点击,而是用视觉模型识别界面元素,就像人眼看屏幕一样。
技术上基于字节自研的 UI-TARS 视觉语言模型(Seed-1.5-VL/1.6 系列),有完整论文支撑(arXiv:2501.12326)。支持纯视觉定位、DOM 操作、混合策略,还能接 MCP 工具扩展功能。
项目地址:
显示更多
China open-sourced a desktop automation agent that runs 100% locally.
It sees your screen, controls your mouse and keyboard, and completes tasks in any app through natural language.
100% Open Source. 29k stars on GitHub.
显示更多