huangserva(@servasyy_ai ):刚看到字节开源的这个项目，直接惊了。就说一句话，AI 自己看着屏幕、动鼠标、敲键盘，在任何软件里帮你完成任务。它不是靠固定坐标点击，而是用视觉模型识别界面元素，就像人眼看屏幕一样。技术上基于字节自研的 UI-TARS 视觉语言模型（Seed-1.5-VL/1.6 系列），有完整论文支撑（arXiv:2501.12326）。支持纯视觉定位、DOM 操作、混合策略，还能接 MCP 工具扩展功能。项目地址：

huangserva

@servasyy_ai

古早程序员 | AI出海 | 自由职业机车游侠&机速购&骑享租创始人 15年前 freelance 起步 → 连续创业者 → 亏过1个亿，逆风翻盘中分享创业，AI，读书，生活，健身 Official X channel of SERVASYY LLC

加入 December 2025

612 正在关注 31.2K 粉丝

huangserva@servasyy_ai

2026.05.07 13:52

刚看到字节开源的这个项目，直接惊了。就说一句话，AI 自己看着屏幕、动鼠标、敲键盘，在任何软件里帮你完成任务。它不是靠固定坐标点击，而是用视觉模型识别界面元素，就像人眼看屏幕一样。技术上基于字节自研的 UI-TARS 视觉语言模型（Seed-1.5-VL/1.6 系列），有完整论文支撑（arXiv:2501.12326）。支持纯视觉定位、DOM 操作、混合策略，还能接 MCP 工具扩展功能。项目地址：

显示更多

How To AI@HowToAI_

2026.05.07 09:06

China open-sourced a desktop automation agent that runs 100% locally. It sees your screen, controls your mouse and keyboard, and completes tasks in any app through natural language. 100% Open Source. 29k stars on GitHub.

显示更多