ariel reyez romero(@ReyezAriel ):Cloudflare 今天官宣推出的 AI Sandbox（也被称为 Containers / Dynamic Workers），听起来像是一个测试用的“代码沙盒”，但如果放进 AI Agent 的完整工作流里，它其实是 AI 时代的执行层基础设施，而不是一个简单的开发或测试工具。一个典型的 Agent 工作流可以拆成：理解任务、规划步骤、选择工具、执行任务、读取结果、再决策并循环。其中，LLM 负责“想”，真正“干活”的部分发生在执行阶段。问题在于，AI 生成的代码是不可信的，用户输入同样不可信，而生产环境又必须支持多租户隔离。这三点叠加，决定了执行必须发生在一个隔离、安全、可控的环境中——这正是 Sandbox 的存在意义。因此，Sandbox 并不是“某些步骤会用到的工具”，而是 Agent 体系中的一个固定节点：只要涉及代码执行、文件处理、数据分析、系统调用（如 shell、依赖安装）、或者长时间运行任务，这些步骤都会进入 Sandbox。反过来，纯推理、文本生成、简单 API 调用、业务状态管理等，通常仍然留在 LLM 或主系统中。最终形成的结构是：LLM 负责决策，Worker 负责编排，Sandbox 负责执行。这也解释了为什么 Sandbox 会从“测试工具”演变为“生产基础设施”。早期的典型场景是 notebook、code interpreter、在线 IDE，看起来更像开发辅助工具。但一旦 Agent 进入生产环境，执行就成为主路径：一个任务中，LLM 调用可能只有十几次，而代码执行可能发生几十甚至上百次。如果没有 Sandbox，这些执行要么不安全，要么不可控，系统无法稳定上线。换句话说，Demo 可以不用 Sandbox，但生产环境必须有等价机制。从架构上看，生产级 Agent 会稳定在三层结构：LLM（决策）、Sandbox（执行）、以及外部系统（数据与状态）。这三者缺一不可。其中，Sandbox 的职责非常明确——提供一个可以安全运行不可信代码的环境，并具备文件系统、网络、依赖管理和资源隔离能力。 Cloudflare 的在执行层上的优势（做 Sandbox的优势），在于它把几项关键能力叠加在一起：全球边缘节点执行、毫秒级冷启动、基于 V8 isolate 的轻量运行时，以及与 Worker 体系的一体化调度。这种组合，使得 AI Agent 的执行可以在用户附近发生，同时具备高频调用所需的低延迟和低开销。相比之下，传统云厂商也能提供隔离执行环境，但往往在启动速度、调度路径和开发复杂度上存在明显差异。更深一层看，这背后是一个范式变化。过去的 AI 系统，本质是“调用模型得到答案”；而 Agent 的形态，更像“写代码并执行任务”。一旦执行成为主路径，成本结构也会发生变化：模型推理的占比下降，而执行的占比上升。对应的基础设施分层，也从单一的模型层，扩展为“模型层 + 控制层 + 执行层”。最近被频繁讨论的 AI Harness其实就是控制，本质上是让 AI 系统“可控、可重复、可工程化”的一层控制系统，负责任务编排、工具调用、策略约束、结果校验和重试机制。它解决的是“AI 应该做什么、怎么做”的问题。但 Harness 本身并不执行任务，一旦涉及代码运行、数据处理或系统操作，就必须调用执行环境。 Harness可以也需要跑在Sandbox 上。Harness 决定流程、调度工具、判断结果是否有效，而 Sandbox 负责真正运行代码、处理文件和完成计算。可以把整个体系理解为四层结构：LLM（模型层）负责推理，Harness（控制层）负责编排，Sandbox（执行层）负责落地执行，底层则是计算、存储和网络基础设施。换句话说，Harness 让 AI“可控”，而 Sandbox 让 AI“可用”。从这个角度看，Sandbox 的最终形态更接近一种运行时环境（runtime）。就像过去的应用离不开操作系统或容器一样，未来的 Agent 也离不开一个稳定、安全、可扩展的执行层。Cloudflare 正在做的，是把这层 runtime 标准化，并推向边缘网络。如果 Agent 成为主流形态，那么 Sandbox 不只是会进入生产流程，而是会成为每一个 AI 请求背后的必经环节。届时，AI 的竞争将不再只发生在模型层，也会在控制层和执行层展开，而执行层很可能成为整个体系中最关键、也最容易被低估的一环。免责声明：本文仅供参考，不构成投资建议。作者可能持有文章提及资产，管道未必客观。投资有风险，入市需谨慎。

2026.03.25 01:45

Cloudflare 今天官宣推出的 AI Sandbox（也被称为 Containers / Dynamic Workers），听起来像是一个测试用的“代码沙盒”，但如果放进 AI Agent 的完整工作流里，它其实是 AI 时代的执行层基础设施，而不是一个简单的开发或测试工具。一个典型的 Agent 工作流可以拆成：理解任务、规划步骤、选择工具、执行任务、读取结果、再决策并循环。其中，LLM 负责“想”，真正“干活”的部分发生在执行阶段。问题在于，AI 生成的代码是不可信的，用户输入同样不可信，而生产环境又必须支持多租户隔离。这三点叠加，决定了执行必须发生在一个隔离、安全、可控的环境中——这正是 Sandbox 的存在意义。因此，Sandbox 并不是“某些步骤会用到的工具”，而是 Agent 体系中的一个固定节点：只要涉及代码执行、文件处理、数据分析、系统调用（如 shell、依赖安装）、或者长时间运行任务，这些步骤都会进入 Sandbox。反过来，纯推理、文本生成、简单 API 调用、业务状态管理等，通常仍然留在 LLM 或主系统中。最终形成的结构是：LLM 负责决策，Worker 负责编排，Sandbox 负责执行。这也解释了为什么 Sandbox 会从“测试工具”演变为“生产基础设施”。早期的典型场景是 notebook、code interpreter、在线 IDE，看起来更像开发辅助工具。但一旦 Agent 进入生产环境，执行就成为主路径：一个任务中，LLM 调用可能只有十几次，而代码执行可能发生几十甚至上百次。如果没有 Sandbox，这些执行要么不安全，要么不可控，系统无法稳定上线。换句话说，Demo 可以不用 Sandbox，但生产环境必须有等价机制。从架构上看，生产级 Agent 会稳定在三层结构：LLM（决策）、Sandbox（执行）、以及外部系统（数据与状态）。这三者缺一不可。其中，Sandbox 的职责非常明确——提供一个可以安全运行不可信代码的环境，并具备文件系统、网络、依赖管理和资源隔离能力。 Cloudflare 的在执行层上的优势（做 Sandbox的优势），在于它把几项关键能力叠加在一起：全球边缘节点执行、毫秒级冷启动、基于 V8 isolate 的轻量运行时，以及与 Worker 体系的一体化调度。这种组合，使得 AI Agent 的执行可以在用户附近发生，同时具备高频调用所需的低延迟和低开销。相比之下，传统云厂商也能提供隔离执行环境，但往往在启动速度、调度路径和开发复杂度上存在明显差异。更深一层看，这背后是一个范式变化。过去的 AI 系统，本质是“调用模型得到答案”；而 Agent 的形态，更像“写代码并执行任务”。一旦执行成为主路径，成本结构也会发生变化：模型推理的占比下降，而执行的占比上升。对应的基础设施分层，也从单一的模型层，扩展为“模型层 + 控制层 + 执行层”。最近被频繁讨论的 AI Harness其实就是控制，本质上是让 AI 系统“可控、可重复、可工程化”的一层控制系统，负责任务编排、工具调用、策略约束、结果校验和重试机制。它解决的是“AI 应该做什么、怎么做”的问题。但 Harness 本身并不执行任务，一旦涉及代码运行、数据处理或系统操作，就必须调用执行环境。 Harness可以也需要跑在Sandbox 上。Harness 决定流程、调度工具、判断结果是否有效，而 Sandbox 负责真正运行代码、处理文件和完成计算。可以把整个体系理解为四层结构：LLM（模型层）负责推理，Harness（控制层）负责编排，Sandbox（执行层）负责落地执行，底层则是计算、存储和网络基础设施。换句话说，Harness 让 AI“可控”，而 Sandbox 让 AI“可用”。从这个角度看，Sandbox 的最终形态更接近一种运行时环境（runtime）。就像过去的应用离不开操作系统或容器一样，未来的 Agent 也离不开一个稳定、安全、可扩展的执行层。Cloudflare 正在做的，是把这层 runtime 标准化，并推向边缘网络。如果 Agent 成为主流形态，那么 Sandbox 不只是会进入生产流程，而是会成为每一个 AI 请求背后的必经环节。届时，AI 的竞争将不再只发生在模型层，也会在控制层和执行层展开，而执行层很可能成为整个体系中最关键、也最容易被低估的一环。免责声明：本文仅供参考，不构成投资建议。作者可能持有文章提及资产，管道未必客观。投资有风险，入市需谨慎。