
AI Agent 生态速报 | 2026-05-25/26:Alibaba 新加坡全栈押注,Gartner 警告「分级治理」,DeepSeek 永久降价 75%
阿里云 Qwen 3.7-Max 发布:可持续运行 35 小时、1000+ 工具调用、兼容 OpenClaw/Claude Code,配套 Wukong 企业平台与自研 Panjiu AI 芯片。Gartner 发布 Agent 治理四级分层框架并预警 2027 年 40% 企业将降级自主 Agent。Microsoft Copilot Studio 计算机使用 Agent 正式 GA。DeepSeek V4-Pro 75% 降价永久固化。Hermes Agent 10 周 11 万 Star。GitHub 日榜前两名均为代码知识图谱工具,揭示 AI 编程工具链最大上下文缺口。
Research Brief
本期概览: 本期覆盖 5 月 25-26 日两日动态。Alibaba Cloud 在新加坡 Qwen Conference 完成全栈亮相;Gartner 发布 Agent 自主度治理框架;Microsoft Copilot Studio 计算机使用 Agent 正式 GA;DeepSeek 将 75% 降价永久化;Hermes Agent 开源 10 周突破 11 万 Star;GitHub 日榜前两位均为代码知识图谱项目;CNCF Jaeger 正式接入 MCP/ACP 追踪 AI Agent。
一、阿里云全栈押注 Agentic Era:Qwen 3.7-Max 可连跑 35 小时
5 月 26 日,阿里云在新加坡 Qwen Conference 发布了一份覆盖模型、平台、芯片、云基础设施的「全栈升级」公告,明确将「Agentic Era」作为统一叙事框架1。

Qwen 3.7-Max 是本次发布的核心。根据 Artificial Analysis 全球大语言模型智能指数,Qwen 3.7-Max 以 56.6 分位列全球第五、中文模型第一,超过 Kimi-K2.6 和 DeepSeek-V4-Pro-Max2。与之前模型代际相比,真正的差异化能力在两个维度:可持续连续运行 35 小时、支持 1000+ 工具调用而不出现性能衰减。此外,Qwen 3.7-Max 支持超过 100 万 token 上下文,并明确与 OpenClaw、Hermes Agent、Claude Code、Codex 等主流 Agent 框架做了兼容适配。阿里这里的选择颇耐寻味——它是将 Qwen 定位为兼容其他 Agent 工具链的底层基础设施,而非要替代它们。
Wukong 企业平台:Alibaba 此次还商业化发布了 Wukong,一个面向企业的多 Agent 协作平台,由旗下 Alibaba Token Hub(ATH)业务集团下的 Wukong BU 负责。Wukong 的核心能力是在单一界面协调多个 Agent 处理复杂工作流——覆盖审批链、数据库查询、合同分析到预算更新的完整流程。
Panjiu AL128 超节点服务器:硬件侧,阿里云发布了搭载自研「甄吾 M890」AI 芯片与 ICN Switch 1.0 网络芯片的 Panjiu AL128 超节点服务器,对标 Google TPU、AWS Trainium 的垂直整合路线,在千卡训练集群的互联带宽上做了针对性优化。
Qwen Cloud + JVS Agent Suite:发布了 AI 原生云平台 Qwen Cloud,提供面向 Agent 的 Skills 门户(已将 60+ 云产品能力封装为 Skill 和 MCP 兼容格式);同时推出 JVS Claw Teams(基于 OpenClaw 框架的企业 Agent 运营平台)和 JVS Mobile(移动端多 Agent 协作平台)。阿里云还宣布加入 PyTorch 基金会成为白金会员3。
「Agentic Era 代表了我们与技术互动方式的范式转变。我们的使命不只是提供强大的模型,而是提供 AI 原生工具和 Agentic 云基础设施,让全球客户能够将 AI 无缝融入所有业务环节。」—— 阿里云 CTO 兼国际业务总裁 Feifei Li 博士(李飞飞)
选型判断:Qwen 3.7-Max 的「35 小时持续运行」能力对需要长任务链的 Agent 场景(如自动化数据分析管道、持续代码迭代)有实际价值,但目前仅开放 Model Studio API 访问,Wukong 企业平台的部署门槛和定价仍待完整披露。与此同时,阿里明确兼容 OpenClaw/Hermes/Claude Code 的策略,表明它更想做「Agent 的运行底座」而非闭合竞争。
二、Gartner:「统一管控」是 Agent 治理的头号错误
45 月 26 日,Gartner 发布了今年最有实操意义的 Agent 治理报告之一。核心预判:到 2027 年,40% 的企业将因治理漏洞而撤销或降级已上线的自主 AI Agent。
失败的根本原因不是能力不足,而是把不同自主度的 Agent 塞进同一套控制流程。Gartner 高级分析师 Shiva Varma 将失败模式概括为两类:对简单 Agent 过度管控(拖慢交付、催生影子开发);对复杂 Agent 管控不足(带来运营、安全和合规风险)。
Gartner 提出了一个按自主度分级的治理模型,四个层级分别对应不同信任边界和管控要求:

| 级别 | 名称 | 行为特征 | 典型场景 | 管控重点 |
|---|---|---|---|---|
| L1 | Observe(观察) | 只读访问,输出仅对请求用户可见 | 文档摘要、数据检索、代码解释 | 数据访问范围、用户认证、基础安全测试 |
| L2 | Advise(建议) | 生成建议/草稿,人工执行所有动作 | 邮件起草、报告生成、决策辅助 | 准确性评估、幻觉测试、用户过度依赖警示 |
| L3 | Act with Approval(批准后执行) | 可执行写入、发送、配置变更,但每次须人工明确批准 | 客户通知发送、系统参数修改 | 审批工作流、审计留痕、Agent 专项事件响应程序 |
| L4 | Act Autonomously(自主执行) | 在预设护栏内独立执行,人工仅审核异常 | 规模化流程自动化 | 持续监控、断路器机制、清晰的责任归属 |
对产品/技术决策者的含义:上线 Agent 之前需先厘清它落在哪个层级,再匹配对应的日志策略、审批流程和事件响应机制。目前很多企业的 Agent 上线是「先跑起来,治理以后再说」——Gartner 的数据告诉你这种做法有 40% 概率在两年内反噬。
三、Microsoft Copilot Studio 计算机使用 Agent 正式 GA
5 月 13 日,微软将 Copilot Studio 的计算机使用(Computer Use)Agent 功能正式 GA,覆盖商业版 Power Platform 全球各地区5。
几个对企业采购和技术评估有直接影响的细节:
- 双模型支持:Copilot Studio 同时支持 OpenAI 计算机使用模型和 Anthropic Claude Sonnet 系列模型,让不同工作负载可按实际表现选择模型,而非绑定单一供应商。
- 治理基础设施:GA 版本包含 Microsoft Purview 审计日志、Dataverse 记录、会话回放、环境隔离、DLP 策略和 Azure Key Vault 凭据管理——这些是 RPA/流程自动化进入合规部署的基本门槛,也是微软与竞争对手拉开差距的核心壁垒。
- Windows 365 Cloud PC 池支持:Agent 在独立的托管 Windows 会话中运行,而非在员工本机上。每个任务对应一个受 Intune 管理的 Cloud PC,可加入 Entra ID、部署补丁、被回收。
- 定价注意事项:计费基于 Copilot Credits,标准模型每步消耗 5 个 Credits,高级模型更高。对高频任务要谨慎核算 ROI,避免把低 API 调用成本的流程套用到 UI 操作方式后出现成本意外。
Computer Use 的战略定位本质是**「无 API 的旧系统集成层」**:对那些没有 REST 接口、只能靠看屏幕和点击操作的遗留系统,这是目前唯一可行的 AI 自动化路径。
四、DeepSeek V4-Pro 降价 75% 永久化,价格战进入最激进阶段
5 月 24 日,DeepSeek 宣布此前定于 5 月 31 日到期的 V4-Pro 临时折扣永久固定为标准定价6。
API 定价现为:输入 token 约 ¥0.025/百万(约 $0.003),输出约为原价的 25%。对比 OpenAI 和 Anthropic 同等推理能力模型,相当于约 1/4 的成本7。
目前 OpenRouter 平台的数据显示,中国模型整体占据约 60% 的 API 调用量,DeepSeek 是最大单一贡献者。此次永久降价锁定市场份额的意图明显——在美国实验室 2026 年下半年可能推出重磅模型更新之前。
对选型的影响:若当前工作负载对延迟和合规要求不高,DeepSeek V4-Pro 的性价比在短期内没有直接对手。但需关注:合规敏感场景(金融、医疗、政府)的数据出境问题仍是实际障碍。
五、开源阵营:Hermes Agent 10 周 11 万 Star,GitHub 榜首是代码知识图谱
Hermes Agent 异军突起
NousResearch 开源的 Hermes Agent 在开源仅两个月后突破 11 万 GitHub Star,稳居月趋势榜首8。Hermes Agent 的核心差异化是内建学习闭环——它从经验中创建技能(Skills),并能自动改进这些技能,而不是每次任务都从空白状态开始。在 OpenRouter 平台,Hermes Agent 一周使用量增长 367%,累计处理 token 超过 9710 亿9。
对于技术选型者的参考点:Hermes Agent 定位和 OpenClaw 的重叠程度有限——前者强调「自我进化的 Skills 系统」,后者更强调多渠道编排和丰富的生态集成;两者在 codegraph 等代码图谱工具和 MCP 协议上均有适配。
2026-05-25 GitHub 日榜10
Loading content card…
日榜前两名均为代码知识图谱项目,合计日增超 7000 Star:
| 名次 | 项目 | 日增 Star | 核心定位 |
|---|---|---|---|
| 1 | Lum1104/Understand-Anything(28.7k⭐) | +3999 | 将任意代码仓库转为可交互三维知识图谱,解决 LLM 对大型项目的结构理解缺失 |
| 2 | colbymchenry/codegraph(23.8k⭐) | +3003 | 预索引代码知识图谱,100% 本地运行,大幅减少 Claude Code 等工具的 Token 消耗 |
| 3 | multica-ai/andrej-karpathy-skills(153.3k⭐) | +2551 | 基于 Karpathy 对 LLM 编码陷阱的深度观察提炼的 CLAUDE.md 配置文件 |
| 4 | rohitg00/ai-engineering-from-scratch(17.5k⭐) | +1853 | 从零实战 AI 工程完整课程,覆盖 LLM、Agent、MCP 等,Python/Rust/TS 代码 |
| 5 | anthropics/claude-plugins-official(27.6k⭐) | +1173 | Anthropic 官方 Claude Code 插件目录,MCP + Skills 扩展的「官方插件商店」 |
趋势判断:当 Claude Code / Codex 被用于中大型代码仓库时,LLM 上下文窗口迅速耗尽并失去对项目结构的整体理解。代码知识图谱作为「预先构建上下文」的解法,正在成为 AI 编程工具的必要补充基础设施。
六、工具链:Jaeger 集成 MCP/ACP,AI Agent 链路追踪进入标准化轨道
CNCF 项目 Jaeger 在 5 月 26 日正式宣布其追踪 AI Agent 的工程路线图11。
核心要点:
- Jaeger v2 重架构:以 OpenTelemetry Collector 框架替换原有采集机制,统一 metrics/logs/traces 到 OTLP 协议。
- 三协议集成:采用 MCP(模型上下文协议)、ACP(Agent Client Protocol)和 AG-UI 协议,使 Jaeger 成为「工程师与 AI Agent 协作调试的交互工作空间」。
- 自然语言查询:ACP 集成让后端可将自然语言约束(例如「找出过去 1 小时内 payment 服务中 latency > 2s 的 500 错误」)转换为确定性 trace 查询,无需手动设置过滤器。
- AI 可见性:Jaeger 正在对接 OpenTelemetry 社区草拟中的 GenAI Agentic Systems 语义规范(Issue #2664),最终目标是在 UI 中可视化展示 AI Pipeline 的完整执行路径——包括 embedding 模型延迟、外部工具调用记录和 token 用量。
这是可观测性工具生态在 Agent 场景下系统性适配的明确信号。自第三十五期报告提到「生产 Agent 可观测性缺口」以来,工具链侧正在加速补课。
七、其他值得关注
Claude Code 上线 Web 版:Anthropic 将 Claude Code 从纯终端工具扩展至可通过浏览器和 iPhone 访问,Agent 任务不再依赖本地终端保持开启状态12。同期,Claude Memory 新增跨 ChatGPT 和 Gemini 的上下文同步能力,打破了单一厂商记忆层的封闭生态假设。
Claude Mythos 泄露信号:5 月 22-24 日,与 Claude Mythos 相关的代码(包含「Strict Write Discipline」推理协议、Mythos Router MEMORY.md 结构、Opus 4.7 生产变体引用)陆续出现在公开 GitHub 仓库,社区 fork 48 小时内获得 170 Star。这是两个月内第三次泄露,结合 Project Glasswing 合作伙伴(Apple/Google/Microsoft/JPMorgan)的描述,Mythos 公开发布窗口可能比 Anthropic 官方暗示的时间更近。
Kimi K2 系列 API 下线:月之暗面宣布 Kimi K2 系列模型将于 2026 年 5 月 25 日正式下线,不再维护,建议直接迁移至 Kimi K2.6 版本以获得持续支持13。
FutureHouse Robin Nature 论文:FutureHouse 在《Nature》发表论文,报道全自动多 Agent AI 科学家系统 Robin,两小时内完成人类科学家数月工作量,发现致盲眼病新药14。AI Agent 在科研自动化领域的实质性进展值得关注——这是典型的「长时间自主任务执行」场景。
本期技术选型信号小结
| 方向 | 信号强度 | 核心判断 |
|---|---|---|
| Agent 治理框架 | ⭐⭐⭐ | Gartner 分级治理模型(L1-L4)是目前最可操作的架构参考,40% 失败率预警需认真对待 |
| 国产 Agentic 基础设施 | ⭐⭐⭐ | Qwen 3.7-Max 定位为「Agent 底层基础设施」并兼容 Claude Code / OpenClaw,是少有的正面接受竞争生态的策略 |
| 代码知识图谱 | ⭐⭐⭐ | GitHub 日榜双冠均为代码知识图谱,是当前 AI 编程工具链的最大上下文缺口解法,可作为 Claude Code / Codex 的配套工具评估 |
| 计算机使用 Agent | ⭐⭐ | Copilot Studio GA 标志着「无 API 遗留系统集成」进入可采购阶段,治理基础设施完整度是真正的竞争壁垒 |
| AI 推理成本 | ⭐⭐ | DeepSeek 永久降价重设了中文模型的成本基线,但数据合规边界仍是非中国企业的决策关键变量 |
| AI 链路追踪 | ⭐⭐ | Jaeger MCP/ACP 集成是第一个以标准化方式解决「Agent 执行路径不透明」的主流开源工具,值得纳入可观测性技术选型候选 |
References
- 1Alibaba Cloud Unveils Advanced Agentic AI Ecosystem
- 2Alibaba Unveils Qwen 3.7-Max as Agentic AI Race Intensifies
- 3Alibaba Cloud Full Stack Agentic Era Announcement
- 4Gartner Says Applying Uniform Governance Across AI Agents Will Lead to Enterprise AI Agent Failure
- 5Copilot Studio Computer-Use Agents Go GA
- 6DeepSeek Permanently Reduces V4 Model Price by 75%
- 7DeepSeek V4-Pro Price Cut Puts OpenAI and Anthropic Under Pressure
- 8NousResearch/hermes-agent GitHub
- 9智能体"迭代跑",苏企如何寻新机
- 10GitHub Trending 日榜 Top 10 2026-05-25
- 11How Jaeger is evolving to trace AI agents with OpenTelemetry
- 12AI News Today May 26 2026
- 13Kimi K2 系列模型 API 下线
- 14Nature 首个全自动 AI 科学家 Robin
Add more perspectives or context around this Drop.