Barret李靖(@Barret_China):现在的 Coding LLM，很擅长处理代码、日志、文档、终端输出，但它们理解的是被描述的世界，而不是真实运行后的世界。开发时就会遇到一种情况，代码逻辑完全正确，然后页面问题一堆，例如字体发虚、间距不协调、响应式布局失效，或者小程序、WebView、浏览器之间表现不一致。这些问题，人一眼就能察觉，但纯语言模型就是不行。这也是当前做软件开发最让人头疼的地方，调细节调到手软，🐶 很多 Agent 会接入 Playwright/Puppeteer/截图分析/OCR/DOM Tree 等能力，相当于在给 LLM 增加了视觉输入，但就算是拿到了截图，它也很难还原真实画面，因为它依然是通过本文的方式来理解这个世界的。产品体验里有大量东西，包括视觉认知、空间感知、交互节奏、动态反馈等，都存在于人的直觉里，滚动、动画、拖拽、手势、页面切换、焦点变化、微交互，这些都不是单张截图能够理解的。最近也看到了一些变化的趋势，多模态 Coding Agent 已经在路上了。下一代 Agent 会越来越像一个真正的软件工程师，它会自己运行页面，观察界面变化，理解视觉问题，修改代码，再重新运行，再继续观察。当前主要还在靠 Harnees 工程手段来弥补这一块。

2026.05.18 02:24

现在的 Coding LLM，很擅长处理代码、日志、文档、终端输出，但它们理解的是被描述的世界，而不是真实运行后的世界。开发时就会遇到一种情况，代码逻辑完全正确，然后页面问题一堆，例如字体发虚、间距不协调、响应式布局失效，或者小程序、WebView、浏览器之间表现不一致。这些问题，人一眼就能察觉，但纯语言模型就是不行。这也是当前做软件开发最让人头疼的地方，调细节调到手软，🐶 很多 Agent 会接入 Playwright/Puppeteer/截图分析/OCR/DOM Tree 等能力，相当于在给 LLM 增加了视觉输入，但就算是拿到了截图，它也很难还原真实画面，因为它依然是通过本文的方式来理解这个世界的。产品体验里有大量东西，包括视觉认知、空间感知、交互节奏、动态反馈等，都存在于人的直觉里，滚动、动画、拖拽、手势、页面切换、焦点变化、微交互，这些都不是单张截图能够理解的。最近也看到了一些变化的趋势，多模态 Coding Agent 已经在路上了。下一代 Agent 会越来越像一个真正的软件工程师，它会自己运行页面，观察界面变化，理解视觉问题，修改代码，再重新运行，再继续观察。当前主要还在靠 Harnees 工程手段来弥补这一块。