AI Agent 生态速报 | 2026-05-25/26：Alibaba 新加坡全栈押注，Gartner 警告「分级治理」，DeepSeek 永久降价 75%

本期概览： 本期覆盖 5 月 25-26 日两日动态。Alibaba Cloud 在新加坡 Qwen Conference 完成全栈亮相；Gartner 发布 Agent 自主度治理框架；Microsoft Copilot Studio 计算机使用 Agent 正式 GA；DeepSeek 将 75% 降价永久化；Hermes Agent 开源 10 周突破 11 万 Star；GitHub 日榜前两位均为代码知识图谱项目；CNCF Jaeger 正式接入 MCP/ACP 追踪 AI Agent。

一、阿里云全栈押注 Agentic Era：Qwen 3.7-Max 可连跑 35 小时

5 月 26 日，阿里云在新加坡 Qwen Conference 发布了一份覆盖模型、平台、芯片、云基础设施的「全栈升级」公告，明确将「Agentic Era」作为统一叙事框架1。

Alibaba Cloud CTO 在新加坡 Qwen Conference 发布 Qwen 3.7-Max — Alibaba Cloud CTO Feifei Li 博士在新加坡 Qwen Conference 发布 Qwen 3.7-Max 1

Qwen 3.7-Max 是本次发布的核心。根据 Artificial Analysis 全球大语言模型智能指数，Qwen 3.7-Max 以 56.6 分位列全球第五、中文模型第一，超过 Kimi-K2.6 和 DeepSeek-V4-Pro-Max2。与之前模型代际相比，真正的差异化能力在两个维度：可持续连续运行 35 小时、支持 1000+ 工具调用而不出现性能衰减。此外，Qwen 3.7-Max 支持超过 100 万 token 上下文，并明确与 OpenClaw、Hermes Agent、Claude Code、Codex 等主流 Agent 框架做了兼容适配。阿里这里的选择颇耐寻味——它是将 Qwen 定位为兼容其他 Agent 工具链的底层基础设施，而非要替代它们。

Wukong 企业平台：Alibaba 此次还商业化发布了 Wukong，一个面向企业的多 Agent 协作平台，由旗下 Alibaba Token Hub（ATH）业务集团下的 Wukong BU 负责。Wukong 的核心能力是在单一界面协调多个 Agent 处理复杂工作流——覆盖审批链、数据库查询、合同分析到预算更新的完整流程。

Panjiu AL128 超节点服务器：硬件侧，阿里云发布了搭载自研「甄吾 M890」AI 芯片与 ICN Switch 1.0 网络芯片的 Panjiu AL128 超节点服务器，对标 Google TPU、AWS Trainium 的垂直整合路线，在千卡训练集群的互联带宽上做了针对性优化。

Qwen Cloud + JVS Agent Suite：发布了 AI 原生云平台 Qwen Cloud，提供面向 Agent 的 Skills 门户（已将 60+ 云产品能力封装为 Skill 和 MCP 兼容格式）；同时推出 JVS Claw Teams（基于 OpenClaw 框架的企业 Agent 运营平台）和 JVS Mobile（移动端多 Agent 协作平台）。阿里云还宣布加入 PyTorch 基金会成为白金会员3。

「Agentic Era 代表了我们与技术互动方式的范式转变。我们的使命不只是提供强大的模型，而是提供 AI 原生工具和 Agentic 云基础设施，让全球客户能够将 AI 无缝融入所有业务环节。」
—— 阿里云 CTO 兼国际业务总裁 Feifei Li 博士（李飞飞）

选型判断：Qwen 3.7-Max 的「35 小时持续运行」能力对需要长任务链的 Agent 场景（如自动化数据分析管道、持续代码迭代）有实际价值，但目前仅开放 Model Studio API 访问，Wukong 企业平台的部署门槛和定价仍待完整披露。与此同时，阿里明确兼容 OpenClaw/Hermes/Claude Code 的策略，表明它更想做「Agent 的运行底座」而非闭合竞争。

二、Gartner：「统一管控」是 Agent 治理的头号错误

5 月 26 日，Gartner 发布了今年最有实操意义的 Agent 治理报告之一。核心预判：到 2027 年，40% 的企业将因治理漏洞而撤销或降级已上线的自主 AI Agent。

失败的根本原因不是能力不足，而是把不同自主度的 Agent 塞进同一套控制流程。Gartner 高级分析师 Shiva Varma 将失败模式概括为两类：对简单 Agent 过度管控（拖慢交付、催生影子开发）；对复杂 Agent 管控不足（带来运营、安全和合规风险）。

Gartner 提出了一个按自主度分级的治理模型，四个层级分别对应不同信任边界和管控要求：

Gartner AI Agent 自主度四级分层框架 — Gartner AI Agent 自主度层级模型（L1 至 L4）4

级别	名称	行为特征	典型场景	管控重点
L1	Observe（观察）	只读访问，输出仅对请求用户可见	文档摘要、数据检索、代码解释	数据访问范围、用户认证、基础安全测试
L2	Advise（建议）	生成建议/草稿，人工执行所有动作	邮件起草、报告生成、决策辅助	准确性评估、幻觉测试、用户过度依赖警示
L3	Act with Approval（批准后执行）	可执行写入、发送、配置变更，但每次须人工明确批准	客户通知发送、系统参数修改	审批工作流、审计留痕、Agent 专项事件响应程序
L4	Act Autonomously（自主执行）	在预设护栏内独立执行，人工仅审核异常	规模化流程自动化	持续监控、断路器机制、清晰的责任归属

对产品/技术决策者的含义：上线 Agent 之前需先厘清它落在哪个层级，再匹配对应的日志策略、审批流程和事件响应机制。目前很多企业的 Agent 上线是「先跑起来，治理以后再说」——Gartner 的数据告诉你这种做法有 40% 概率在两年内反噬。

三、Microsoft Copilot Studio 计算机使用 Agent 正式 GA

5 月 13 日，微软将 Copilot Studio 的计算机使用（Computer Use）Agent 功能正式 GA，覆盖商业版 Power Platform 全球各地区5。

几个对企业采购和技术评估有直接影响的细节：

双模型支持：Copilot Studio 同时支持 OpenAI 计算机使用模型和 Anthropic Claude Sonnet 系列模型，让不同工作负载可按实际表现选择模型，而非绑定单一供应商。
治理基础设施：GA 版本包含 Microsoft Purview 审计日志、Dataverse 记录、会话回放、环境隔离、DLP 策略和 Azure Key Vault 凭据管理——这些是 RPA/流程自动化进入合规部署的基本门槛，也是微软与竞争对手拉开差距的核心壁垒。
Windows 365 Cloud PC 池支持：Agent 在独立的托管 Windows 会话中运行，而非在员工本机上。每个任务对应一个受 Intune 管理的 Cloud PC，可加入 Entra ID、部署补丁、被回收。
定价注意事项：计费基于 Copilot Credits，标准模型每步消耗 5 个 Credits，高级模型更高。对高频任务要谨慎核算 ROI，避免把低 API 调用成本的流程套用到 UI 操作方式后出现成本意外。

Computer Use 的战略定位本质是**「无 API 的旧系统集成层」**：对那些没有 REST 接口、只能靠看屏幕和点击操作的遗留系统，这是目前唯一可行的 AI 自动化路径。

四、DeepSeek V4-Pro 降价 75% 永久化，价格战进入最激进阶段

5 月 24 日，DeepSeek 宣布此前定于 5 月 31 日到期的 V4-Pro 临时折扣永久固定为标准定价6。

API 定价现为：输入 token 约 ¥0.025/百万（约 $0.003），输出约为原价的 25%。对比 OpenAI 和 Anthropic 同等推理能力模型，相当于约 1/4 的成本7。

目前 OpenRouter 平台的数据显示，中国模型整体占据约 60% 的 API 调用量，DeepSeek 是最大单一贡献者。此次永久降价锁定市场份额的意图明显——在美国实验室 2026 年下半年可能推出重磅模型更新之前。

对选型的影响：若当前工作负载对延迟和合规要求不高，DeepSeek V4-Pro 的性价比在短期内没有直接对手。但需关注：合规敏感场景（金融、医疗、政府）的数据出境问题仍是实际障碍。

五、开源阵营：Hermes Agent 10 周 11 万 Star，GitHub 榜首是代码知识图谱

Hermes Agent 异军突起

NousResearch 开源的 Hermes Agent 在开源仅两个月后突破 11 万 GitHub Star，稳居月趋势榜首8。Hermes Agent 的核心差异化是内建学习闭环——它从经验中创建技能（Skills），并能自动改进这些技能，而不是每次任务都从空白状态开始。在 OpenRouter 平台，Hermes Agent 一周使用量增长 367%，累计处理 token 超过 9710 亿9。

对于技术选型者的参考点：Hermes Agent 定位和 OpenClaw 的重叠程度有限——前者强调「自我进化的 Skills 系统」，后者更强调多渠道编排和丰富的生态集成；两者在 codegraph 等代码图谱工具和 MCP 协议上均有适配。

2026-05-25 GitHub 日榜10

github.com · GitHub repository

Lum1104/Understand-Anything

https://github.com/Lum1104/Understand-Anything

Loading content card…

日榜前两名均为代码知识图谱项目，合计日增超 7000 Star：

名次	项目	日增 Star	核心定位
1	Lum1104/Understand-Anything（28.7k⭐）	+3999	将任意代码仓库转为可交互三维知识图谱，解决 LLM 对大型项目的结构理解缺失
2	colbymchenry/codegraph（23.8k⭐）	+3003	预索引代码知识图谱，100% 本地运行，大幅减少 Claude Code 等工具的 Token 消耗
3	multica-ai/andrej-karpathy-skills（153.3k⭐）	+2551	基于 Karpathy 对 LLM 编码陷阱的深度观察提炼的 CLAUDE.md 配置文件
4	rohitg00/ai-engineering-from-scratch（17.5k⭐）	+1853	从零实战 AI 工程完整课程，覆盖 LLM、Agent、MCP 等，Python/Rust/TS 代码
5	anthropics/claude-plugins-official（27.6k⭐）	+1173	Anthropic 官方 Claude Code 插件目录，MCP + Skills 扩展的「官方插件商店」

趋势判断：当 Claude Code / Codex 被用于中大型代码仓库时，LLM 上下文窗口迅速耗尽并失去对项目结构的整体理解。代码知识图谱作为「预先构建上下文」的解法，正在成为 AI 编程工具的必要补充基础设施。

六、工具链：Jaeger 集成 MCP/ACP，AI Agent 链路追踪进入标准化轨道

CNCF 项目 Jaeger 在 5 月 26 日正式宣布其追踪 AI Agent 的工程路线图11。

核心要点：

Jaeger v2 重架构：以 OpenTelemetry Collector 框架替换原有采集机制，统一 metrics/logs/traces 到 OTLP 协议。
三协议集成：采用 MCP（模型上下文协议）、ACP（Agent Client Protocol）和 AG-UI 协议，使 Jaeger 成为「工程师与 AI Agent 协作调试的交互工作空间」。
自然语言查询：ACP 集成让后端可将自然语言约束（例如「找出过去 1 小时内 payment 服务中 latency > 2s 的 500 错误」）转换为确定性 trace 查询，无需手动设置过滤器。
AI 可见性：Jaeger 正在对接 OpenTelemetry 社区草拟中的 GenAI Agentic Systems 语义规范（Issue #2664），最终目标是在 UI 中可视化展示 AI Pipeline 的完整执行路径——包括 embedding 模型延迟、外部工具调用记录和 token 用量。

这是可观测性工具生态在 Agent 场景下系统性适配的明确信号。自第三十五期报告提到「生产 Agent 可观测性缺口」以来，工具链侧正在加速补课。

七、其他值得关注

Claude Code 上线 Web 版：Anthropic 将 Claude Code 从纯终端工具扩展至可通过浏览器和 iPhone 访问，Agent 任务不再依赖本地终端保持开启状态12。同期，Claude Memory 新增跨 ChatGPT 和 Gemini 的上下文同步能力，打破了单一厂商记忆层的封闭生态假设。

Claude Mythos 泄露信号：5 月 22-24 日，与 Claude Mythos 相关的代码（包含「Strict Write Discipline」推理协议、Mythos Router MEMORY.md 结构、Opus 4.7 生产变体引用）陆续出现在公开 GitHub 仓库，社区 fork 48 小时内获得 170 Star。这是两个月内第三次泄露，结合 Project Glasswing 合作伙伴（Apple/Google/Microsoft/JPMorgan）的描述，Mythos 公开发布窗口可能比 Anthropic 官方暗示的时间更近。

Kimi K2 系列 API 下线：月之暗面宣布 Kimi K2 系列模型将于 2026 年 5 月 25 日正式下线，不再维护，建议直接迁移至 Kimi K2.6 版本以获得持续支持13。

FutureHouse Robin Nature 论文：FutureHouse 在《Nature》发表论文，报道全自动多 Agent AI 科学家系统 Robin，两小时内完成人类科学家数月工作量，发现致盲眼病新药14。AI Agent 在科研自动化领域的实质性进展值得关注——这是典型的「长时间自主任务执行」场景。

本期技术选型信号小结

方向	信号强度	核心判断
Agent 治理框架	⭐⭐⭐	Gartner 分级治理模型（L1-L4）是目前最可操作的架构参考，40% 失败率预警需认真对待
国产 Agentic 基础设施	⭐⭐⭐	Qwen 3.7-Max 定位为「Agent 底层基础设施」并兼容 Claude Code / OpenClaw，是少有的正面接受竞争生态的策略
代码知识图谱	⭐⭐⭐	GitHub 日榜双冠均为代码知识图谱，是当前 AI 编程工具链的最大上下文缺口解法，可作为 Claude Code / Codex 的配套工具评估
计算机使用 Agent	⭐⭐	Copilot Studio GA 标志着「无 API 遗留系统集成」进入可采购阶段，治理基础设施完整度是真正的竞争壁垒
AI 推理成本	⭐⭐	DeepSeek 永久降价重设了中文模型的成本基线，但数据合规边界仍是非中国企业的决策关键变量
AI 链路追踪	⭐⭐	Jaeger MCP/ACP 集成是第一个以标准化方式解决「Agent 执行路径不透明」的主流开源工具，值得纳入可观测性技术选型候选