qinbafrank(@qinbafrank):来读读论文，第一次从学术的角度明确了在处理阶段cpu占总延迟的比例在大幅度提高的论文，就是这篇佐治亚理工跟英特尔合作的论文，标题《理解、分析与优化代理AI执行：以CPU为中心的视角》论文摘要：代理型AI服务将基于大语言模型的单体推理转变为自主问题解决者，能够规划、调用工具、执行推理并动态适应环境。由于多样化的任务执行需求，此类服务严重依赖于异构的CPU–GPU系统，其中负责代理能力的大部分外部工具要么在CPU上运行，要么由CPU进行编排。为了更深入地理解其作用，本文旨在从一个很大程度上被忽视的、以CPU为中心的视角，来刻画和分析代理型AI工作负载所带来的系统瓶颈我们首先提出了对代理型AI执行的完整时间特征刻画，并选择了具有代表性的工作负载以捕捉其算法多样性。然后，我们对这些代表性工作负载进行运行时特征刻画，在两个不同的硬件系统上分析端到端延迟和吞吐量，以分别孤立出各自的架构瓶颈。基于对瓶颈的洞察，我们最后提出了两种调度优化方法，分别称为CPU感知的重叠微批处理和混合代理调度，分别应用于同质化和异构化的代理工作负载具体来说，这些方法旨在提高CPU-GPU并发利用率，同时减少异构执行中的资源倾斜分配。在两个硬件系统上的实验评估证明了CPU感知的重叠微批处理的有效性：在独立同质工作负载执行中，P50延迟降低高达1.7倍；在同质开环负载下，服务/总延迟降低高达3.9倍/1.8倍。此外，对于异构开环负载，混合代理调度在P50/P90分位数下可将少数请求类型的总延迟降低高达2.37倍/2.49倍

2026.04.25 00:36

来读读论文，第一次从学术的角度明确了在处理阶段cpu占总延迟的比例在大幅度提高的论文，就是这篇佐治亚理工跟英特尔合作的论文，标题《理解、分析与优化代理AI执行：以CPU为中心的视角》论文摘要：代理型AI服务将基于大语言模型的单体推理转变为自主问题解决者，能够规划、调用工具、执行推理并动态适应环境。由于多样化的任务执行需求，此类服务严重依赖于异构的CPU–GPU系统，其中负责代理能力的大部分外部工具要么在CPU上运行，要么由CPU进行编排。为了更深入地理解其作用，本文旨在从一个很大程度上被忽视的、以CPU为中心的视角，来刻画和分析代理型AI工作负载所带来的系统瓶颈我们首先提出了对代理型AI执行的完整时间特征刻画，并选择了具有代表性的工作负载以捕捉其算法多样性。然后，我们对这些代表性工作负载进行运行时特征刻画，在两个不同的硬件系统上分析端到端延迟和吞吐量，以分别孤立出各自的架构瓶颈。基于对瓶颈的洞察，我们最后提出了两种调度优化方法，分别称为CPU感知的重叠微批处理和混合代理调度，分别应用于同质化和异构化的代理工作负载具体来说，这些方法旨在提高CPU-GPU并发利用率，同时减少异构执行中的资源倾斜分配。在两个硬件系统上的实验评估证明了CPU感知的重叠微批处理的有效性：在独立同质工作负载执行中，P50延迟降低高达1.7倍；在同质开环负载下，服务/总延迟降低高达3.9倍/1.8倍。此外，对于异构开环负载，混合代理调度在P50/P90分位数下可将少数请求类型的总延迟降低高达2.37倍/2.49倍