现在的 Coding LLM,很擅长处理代码、日志、文档、终端输出,但它们理解的是被描述的世界,而不是真实运行后的世界。
开发时就会遇到一种情况,代码逻辑完全正确,然后页面问题一堆,例如字体发虚、间距不协调、响应式布局失效,或者小程序、WebView、浏览器之间表现不一致。
这些问题,人一眼就能察觉,但纯语言模型就是不行。这也是当前做软件开发最让人头疼的地方,调细节调到手软,🐶
很多 Agent 会接入 Playwright/Puppeteer/截图分析/OCR/DOM Tree 等能力,相当于在给 LLM 增加了视觉输入,但就算是拿到了截图,它也很难还原真实画面,因为它依然是通过本文的方式来理解这个世界的。
产品体验里有大量东西,包括视觉认知、空间感知、交互节奏、动态反馈等,都存在于人的直觉里,滚动、动画、拖拽、手势、页面切换、焦点变化、微交互,这些都不是单张截图能够理解的。
最近也看到了一些变化的趋势,多模态 Coding Agent 已经在路上了。
下一代 Agent 会越来越像一个真正的软件工程师,它会自己运行页面,观察界面变化,理解视觉问题,修改代码,再重新运行,再继续观察。
当前主要还在靠 Harnees 工程手段来弥补这一块。
顯示更多