随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。智能体(Agent)作为能够自主理解、决策并执行任务的全新应用范式,正在重塑软件的定义。然而,在生产环境中规模化落地 Agent 面临着开发效率、安全弹性、运维观测等多重挑战。
今天,云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施:助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun,阐述其如何通过创新的运行时、模型服务、网关及可观测体系,为企业构筑坚实、高效、安全的 Agent 时代基石。
从云原生应用到 AI 原生应用
应用架构的演进史,是一部不断追求极致效率的创新史。从单体应用到以微服务、容器化和 Serverless 为代表的云原生技术,我们将研发重心从繁重的底层运维中解放出来,聚焦于业务创新。
如今,以大模型和自然语言交互为核心的 AI 原生应用浪潮正汹涌而至。未来的应用将不再是被动等待指令的工具,而是一个个能够自主理解、决策并调用工具完成复杂任务的智能体。
然而,在这条通往智能未来的道路上,生产环境落地 Agent 会在应用生命周期各个阶段面对诸多挑战:
- 开发阶段的效率问题:企业级 Agent 的构建远不止于 API 调用,它涉及复杂的逻辑编排与工具集成。如何选择合适的开发框架,并与现有业务及研发流程高效匹配,成为首要难题。
- 部署阶段的安全与弹性问题:Agent 执行代码具有不确定性与流量的动态不可预测性,对运行时的安全隔离与弹性伸缩能力提出了前所未有的高要求。
- 运维阶段的“黑盒”与“成本失控”问题:Agent 的运行状态、Token 消耗、工具调用路径往往如同一个“黑盒”,导致成本失控与质量评估困难。一套完善的 AI 应用治理与可观测体系不可或缺。
为了解决这些问题,我们以阿里云函数计算 FC 为核心,深度集成日志、网关等云产品,推出了 AgentRun——一个专为 Agent 而生的集成基础设施平台。
AgentRun:专为 Agent 而生的一站式基础设施
AgentRun 旨在为 Agent 应用生命周期的各个阶段提供全面支持,其核心能力围绕三大层面构建:
- 开发层面:框架兼容与深度集成。AgentRun 与开发框架无关,任何框架构建的 Agent 都可以平滑运行。并且我们针对流行框架进行了深度集成。用户可能够根据自身需求,选择最适合的工具和框架,无论是基于模板快速搭建,还是深度定制,都能事半功倍。
- 部署层面:提供安全、弹性、低成本的运行底座,针对 Agent 应用负载特点,AgentRun 提供了深度优化的运行时,确保 Agent 在安全隔离的环境中高效、弹性地运行。
- 运维层面:全面的 AI 应用治理与可观测体系。从统一的模型代理网关,到 AI 全栈监控与端到端链路追踪,AgentRun 帮助客户清晰洞察 Agent 的每一个行为与每一笔消耗,实现精细化的成本控制与质量优化。
深度解析 AgentRun 核心引擎
AgentRun 的强大能力,源于其四大核心引擎的协同工作。
智能体运行时与云沙箱:Agent 的心脏
基于函数计算构建的智能体运行时,是 AgentRun 的核心。它提供了一个轻量灵活、安全隔离、极致弹性且成本精益的执行环境。
- 安全隔离:运行时的第一原则。我们采用自研的“袋鼠安全容器”,它具备虚拟机的隔离强度,却拥有容器级的百毫秒启动速度。结合存储、网络的多维度多租户隔离设计,确保 Agent 可在安全的环境中执行任意代码。
- 极致弹性:应对不确定负载的关键。AgentRun 创新地将实例管理做成了数据平面,使其弹性能力无单点瓶颈,可随集群规模无限水平扩展。结合专为弹性优化的网络架构,实例可在百毫秒内启动并访问 VPC 内的任何资源,当前已具备单集群支持百万规模的智能体运行时和沙箱实例,单个智能体服务支持百万 QPS 的服务能力。
- 精益成本:技术普惠的基石。我们首创了按实例“忙/闲”状态独立计费的模式。当 Agent 等待模型或工具响应时,实例处于闲置状态,算力免费,仅收取极低的内存费用。该模式完美契合 Agent 的工作流,平均可为企业降低 60% TCO。
此外,运行时内置了开箱即用的代码解释器和浏览器沙箱等工具,无论是简单的 Agent 还是复杂的链式 Agent,AgentRun 都能获得统一、高效的执行环境。
模型运行时:领域模型托管更弹性、低成本
Agent 任务常需调用意图识别、文生图、文生语音等领域模型。AgentRun 基于函数计算提供的模型运行时,为这类小参数模型提供了更具弹性和成本效益的托管方案。
其核心是一套请求感知调度引擎,处理流程如下:
-
当一个推理请求到达函数网关后,我们的调度引擎。它会实时追踪请求处理和集群 GPU 实例的负载情况。
-
引擎会根据上述信息做出决策:
- 路径 ①:优先使用那些已经处于活跃状态的实例。这是最高效的方式,保证最低延迟,因为实例是‘热’的。
- 路径 ②:快速唤醒那些暂时闲置但已预热的实例。大家知道,冷启动是 Serverless 的一大痛点。但通过我们的快照恢复等技术,我们将这个唤醒时间压缩到了毫秒级!这意味着我们用较低的成本,实现了百倍的启动加速,能够满足延时敏感的在线业务要求。
- 路径 ③:弹性补充那些需要从零开始的冷启动实例,以应对后续的流量增长。
这套机制在实际业务场景中效果很好:
- 在请求感知调度下,我们成功地将 AI 应用的 RT 抖动减少了 80%,大幅提升了用户体验和系统稳定性。
- 通过毫秒级闲置实例唤醒,我们实现了百倍的启动加速,既保证了 AI 算力的刚性交付,又让客户弹性使用算力资源,大幅降低成本。
- 通过算力解耦技术,我们能为客户提供更细粒度的 CPU 和 GPU 组合,让小参数的领域模型资源使用更经济高效。这使得企业能够平均降低 40% 的 GPU 成本。
AgentRun 模型运行时,正是通过这些技术创新,让领域模型推理既高效,又经济,真正实现弹性和成本的最佳平衡。
AI 网关:企业 AI 能力的治理中心
AI 网关不仅是流量入口,更是解决模型多样性、安全合规、开发效率与成本优化三大治理难题的核心。
- 多模型适配:企业内部可能同时使用通义、GPT、开源 Qwen 等多种模型。AgentRun 网关通过多模型适配能力,提供了统一的协议转换、重试和 Fallback 机制,让上层应用无需关心底层模型的差异,实现了“即插即用”。
- 安全与合规:网关内置了丰富的 AI 安全防护插件,从内容安全护栏,到精细化的 Token 限流与配额,确保 Agent 的每一次交互都安全、合规、可控。
- 开发效率与成本优化:我们提供了丰富的 AI 开发插件集,例如“语义缓存”能大幅降低重复请求的 Token 消耗,提升响应速度;“提示词模板”则能帮助团队标准化 Prompt 工程,提升 Agent 的稳定性。除此之外,AI 网关还提供全面的 LLM 访问日志和消费者/模型级别的 Token 消费观测,便于成本核算和优化。
AI 网关为企业提供高可用、零信任、高性能的全面保障,大模型调用成功率能提升到 99.9% 以上。
AgentRun 可观测:攻克 Agent “黑盒”难题
为解决 Agent“用起来、用得省、用得好”的朴素诉求,AgentRun 构建了强大的可观测能力。
- 端到端链路追踪:通过标准可观测协议,将用户请求经过的所有组件(网关、模型应用、向量数据库等)串联起来,实现快速的问题定位。
- 全栈数据关联分析:构建全栈可观测数据平台,将链路、指标(如应用层 RT 与底层 GPU 利用率)等数据进行关联分析,精准判断故障根源。
- 统一日志存储与分析:提供统一的日志能力,记录每次调用的输入输出,为 AI 应用质量的量化评估与持续优化提供数据基础。
实践的证明:AgentRun 的落地实践
AgentRun 的能力已在多个大规模真实业务场景中得到验证:
- 模型服务化领域:我们与国内最大的 AI 模型社区 ModelScope 魔搭深度合作。过去,开发者要用上社区里超过 2 万个热门模型,需要经历繁琐的环境搭建和部署。现在,通过 AgentRun,开发者可以一键托管,最快 30 秒就能将一个开源模型,转化为生产级的、兼容 OpenAI 规范的 API。大幅加速了从模型到应用的“最后一公里”。而吉利/极氪等头部厂商,也大量使用模型运行时托管文生图,文生语音等领域模型,支撑智能座舱等关键业务。
- 企业智能体落地:支撑行业头部基础模型厂商构建面向千万用户的 C 端智能体应用。AgentRun 的虚拟机级安全隔离、大规模实时弹性以及忙闲智能计费,完美解决了稀疏调用与“爆款”流量并存的复杂场景,实现了安全、体验与成本的极致平衡。
- AI 工具生态:我们助力阿里云百炼发布了 MCP Server 市场。工具开发者可以将其服务以 Serverless 的方式部署。AgentRun 的实例缩 0 和闲置计费等能力,让这些工具服务在没有流量时,成本降低 85%,甚至为 0。除此之外,Qwen 模型训练中的强化学习任务,负载是脉冲式的,也大量使用 AgentRun Sandbox,规模达到数十万核。
新的技术浪潮已经到来。未来的核心竞争力,将不再仅仅是模型本身,而是高效、安全、大规模地部署和管理 Agent 这一全新数字劳动力的能力。AgentRun 的使命,正是成为 AI 原生时代不可或缺的“水电煤”基础设施,为企业的智能化转型铺平道路,让每一个创新的想法都能在这条高速公路上尽情驰骋。