登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

qinbafrank
@qinbafrank
Investor in AI、Crypto、TMT,跟踪最前沿科技趋势、野生宏观政经观察、研究全球资本流动性、周期趋势投资。记录个人学习和思考,经常出错常态掉坑爬坑。Runner🏃
参加 December 2020
1.1K フォロー中    143.1K ファン
来读读论文,第一次从学术的角度明确了在处理阶段cpu占总延迟的比例在大幅度提高的论文,就是这篇佐治亚理工跟英特尔合作的论文,标题《理解、分析与优化代理AI执行:以CPU为中心的视角》 论文摘要:代理型AI服务将基于大语言模型的单体推理转变为自主问题解决者,能够规划、调用工具、执行推理并动态适应环境。由于多样化的任务执行需求,此类服务严重依赖于异构的CPU–GPU系统,其中负责代理能力的大部分外部工具要么在CPU上运行,要么由CPU进行编排。为了更深入地理解其作用,本文旨在从一个很大程度上被忽视的、以CPU为中心的视角,来刻画和分析代理型AI工作负载所带来的系统瓶颈 我们首先提出了对代理型AI执行的完整时间特征刻画,并选择了具有代表性的工作负载以捕捉其算法多样性。然后,我们对这些代表性工作负载进行运行时特征刻画,在两个不同的硬件系统上分析端到端延迟和吞吐量,以分别孤立出各自的架构瓶颈。基于对瓶颈的洞察,我们最后提出了两种调度优化方法,分别称为CPU感知的重叠微批处理和混合代理调度,分别应用于同质化和异构化的代理工作负载 具体来说,这些方法旨在提高CPU-GPU并发利用率,同时减少异构执行中的资源倾斜分配。在两个硬件系统上的实验评估证明了CPU感知的重叠微批处理的有效性:在独立同质工作负载执行中,P50延迟降低高达1.7倍;在同质开环负载下,服务/总延迟降低高达3.9倍/1.8倍。此外,对于异构开环负载,混合代理调度在P50/P90分位数下可将少数请求类型的总延迟降低高达2.37倍/2.49倍
もっと見る
@mylifcc 乔治亚理工跟英特尔的合写的一篇报告有研究工具处理阶段cpu占总延迟比例。第二个我也没看到相关数据,