TwiScan
인기
커뮤니티
계정 컬렉션
로그인
회원가입
English
日本語
한국의
简体中文
繁体中文
가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.
지금 가입
qinbafrank
@qinbafrank
Investor in AI、Crypto、TMT,跟踪最前沿科技趋势、野生宏观政经观察、研究全球资本流动性、周期趋势投资。记录个人学习和思考,经常出错常态掉坑爬坑。Runner🏃
가입 December 2020
1.1K
팔로잉 중
143.1K
팬
qinbafrank
@qinbafrank
2026.04.25 00:36
来读读论文,第一次从学术的角度明确了在处理阶段cpu占总延迟的比例在大幅度提高的论文,就是这篇佐治亚理工跟英特尔合作的论文,标题《理解、分析与优化代理AI执行:以CPU为中心的视角》 论文摘要:代理型AI服务将基于大语言模型的单体推理转变为自主问题解决者,能够规划、调用工具、执行推理并动态适应环境。由于多样化的任务执行需求,此类服务严重依赖于异构的CPU–GPU系统,其中负责代理能力的大部分外部工具要么在CPU上运行,要么由CPU进行编排。为了更深入地理解其作用,本文旨在从一个很大程度上被忽视的、以CPU为中心的视角,来刻画和分析代理型AI工作负载所带来的系统瓶颈 我们首先提出了对代理型AI执行的完整时间特征刻画,并选择了具有代表性的工作负载以捕捉其算法多样性。然后,我们对这些代表性工作负载进行运行时特征刻画,在两个不同的硬件系统上分析端到端延迟和吞吐量,以分别孤立出各自的架构瓶颈。基于对瓶颈的洞察,我们最后提出了两种调度优化方法,分别称为CPU感知的重叠微批处理和混合代理调度,分别应用于同质化和异构化的代理工作负载 具体来说,这些方法旨在提高CPU-GPU并发利用率,同时减少异构执行中的资源倾斜分配。在两个硬件系统上的实验评估证明了CPU感知的重叠微批处理的有效性:在独立同质工作负载执行中,P50延迟降低高达1.7倍;在同质开环负载下,服务/总延迟降低高达3.9倍/1.8倍。此外,对于异构开环负载,混合代理调度在P50/P90分位数下可将少数请求类型的总延迟降低高达2.37倍/2.49倍
더 보기
qinbafrank
@qinbafrank
2026.04.17 08:47
@mylifcc
乔治亚理工跟英特尔的合写的一篇报告有研究工具处理阶段cpu占总延迟比例。第二个我也没看到相关数据,
0
0
5
166
27
커뮤니티로 전달
인기 있는 사용자
秋元真夏 卒アルラジオ
@sotsualbum
26.5K 팬
乃木坂46のオールナイトニッポン【公式】
@NOGI46ann
233.5K 팬
New York Post
@nypost
3.9M 팬
乃木坂46与田祐希3rd写真集『ヨーダ』発売中【公式】
@yodayuuki_3rd
193.4K 팬
【公式】鈴木絢音『言葉の海をさまよう』大好評発売中!✨3刷御礼✨
@ayane_gentosha
64.4K 팬
乃木坂46 樋口日奈1st 写真集2022/4/12発売【公式】
@higuchihina_1st
50.5K 팬
【公式】北野日奈子1st写真集【空気の色】
@hinako_gentosha
58.6K 팬
樋口日奈&staff
@hina_and_staff
90.1K 팬
乃木坂46 秋元真夏2nd写真集『しあわせにしたい』発売中!【公式】
@manatsu_2nd
58.2K 팬
乃木坂46久保史緒里1st写真集『交差点』【公式】発売中
@kuboshi1st
78.4K 팬
山崎 怜奈 | Rena YAMAZAKI
@ymzkofficial
126.7K 팬
乃木坂46 阪口珠美1st写真集『青いバラ』【公式】大好評発売中🌹
@tamamibook
33K 팬
billboard
@billboard
15.5M 팬
星乃愛璃咲🐰🍓《ポジティブモンスター》
@arisa25_circle
1.5K 팬
乃木坂46
@nogizaka46
2M 팬