暗无天日

=============>DarkSun的个人博客

TIL:Agentic Testing——AI 替你跑质量流程

DZone 一篇 2026 年 agentic testing 工具盘点 里学到的一个关键区分。

主动权在谁手里

AI-assisted testing(AI 辅助测试)和 agentic testing(智能体测试)听着像一回事,但主动权完全不一样。

AI-assisted 模式下,AI 给建议,人来执行。比如 AI 说"这个 PR 改了支付模块,建议跑一下支付相关的回归测试",然后人点确认、跑脚本、看结果。方向盘在人手里。

Agentic 模式下就不一样了,AI 自己跑完整个循环。看代码改了什么,决定跑哪些测试,跑完分析结果,发现选择器(定位页面元素的标识,比如按钮的 ID 或 class)变了就自动修,最后给你一个"这次变更的风险等级"。人呢,就在边上画好红线,关键决策审一眼就行。

一句话,前者是副驾驶,后者是自动驾驶。

怎么跑的,四个环节的闭环

  1. 规划(Planning) ,读需求文档、代码变更、历史缺陷数据,决定"这次要测什么、不测什么"。不是把所有回归用例都跑一遍,而是基于风险信号挑重点。
  2. 执行(Execution) ,跑测试,收集证据(截图、日志、性能数据)。
  3. 适应(Adaptation) ,测试跑不通时不直接报红,先尝试修复。比如按钮从 id="submit" 改成了 class="btn-primary" ,agent 自己找到新的定位方式,更新用例,继续跑。这个能力叫自愈(self-healing)。
  4. 治理(Governance) ,根据覆盖率、变更影响、缺陷逃逸率(测试没拦住、上线后才被发现的 bug 比例)等指标,决定"这次能不能上线"。agent 基于数据做判断,但人可以审查它的决策理由。

四个环节不是跑一次就完了。适应阶段修好的用例、治理阶段积累的质量数据,都会反馈给下一轮规划,告诉 agent 哪些区域风险高、哪些测试容易坏。这才是"闭环"的意思。

选型时看什么

原文把 2026 年的 agentic testing 工具分成三类:大型企业平台(比如 Tricentis)、AI-native 平台(比如 mabl)、还有只解决单一痛点的单点工具(比如 testRigor)。不管选哪类,都有三个评估维度。

  1. 范围 ,你需要的是一个助手(帮你写测试)、一个单点工具(解决某个瓶颈)、还是一个平台(管理整个质量流程)?先想清楚这个,再去看工具列表。
  2. 可衡量的结果 ,别看 demo,demo 都漂亮。看生产环境中的回归耗时、维护成本、flake rate(测试本身不稳定导致的假失败比例)、缺陷逃逸率有没有实际改善。说清怎么衡量成功,ROI 才算得出来。
  3. 治理能力 ,agent 自主做了决策,你能解释它为什么这么做吗?在需要审计的场景(金融、医疗),这一点不是锦上添花,是刚需。
AI : testing : agentic : QA : 自动化测试