在线学AI

【张晔】Agent 驱动智能测试工具体系建设
收藏

【张晔】Agent 驱动智能测试工具体系建设

价格
0.00
收藏:0
简要介绍
编号 QEcon20250912sh.041 类型 顶会
顶会名称 QEcon 日期 2025年9月12日~13日
地域 上海

一、AI时代测试新范式

软件工程演进背景

软件工程历经三阶段:1.0(1968年,过程驱动,单机环境,手工为主)、2.0(2001年,敏捷/DevOps,云环境,半自动化)、3.0(2023年,大模型驱动,万物互联,全自动化)。

3.0时代核心特征:以“大模型+数据”为中心,软件形态为“软件即模型(Saaki)”,支持持续交付,研发人员以业务/产品、验证/验收人员为主导,自动化覆盖代码/脚本/设计生成。

2.0时代测试困境

核心问题:成本高(维护、框架成本)、效率低(执行慢、误报多)、价值难证明(覆盖率与稳定性矛盾)。

负面案例:某业务存量用例稳定性仅60%,失败率超10%,人工复验成本高;正面案例:某业务GUI自动化年省200万,但需2年建设,界面改版仍需大量维护。

测试新范式

传统测试流程(需求→用例设计→编写→评审→执行→分析→报告)需人工主导,AI时代转为“需求→智能用例生成智能体(生成+检查)→智能执行分析多智能体(执行+分析+改进+报告生成)→报告”,实现全流程AI赋能。

行业趋势:当前以AI辅助生成为主(如用例编写、代码生成),未来将走向Agent驱动全流程智能测试,部分AI原生测试工具(如Octomind、ThinkMoss)已先行实践。

二、测试智能体系统构成

测试智能体核心由规划(Planning)、记忆(Memory)、动作(Action)、工具(Tools) 四大模块构成,协同实现自主测试。

规划:分任务、步骤两级规划,解决用例描述模糊问题,动态调整执行步骤以提升可执行性。例如Level-1任务规划明确测试用例目标,Level-2步骤规划细化每步操作。

记忆:含短期与长期记忆,构建多层存储体系,支持读写与检索。按功能分为领域知识(测试相关“是什么”)、操作路径(“怎么做”)、辅助信息(用例执行记录、错误纠正方案),通过上下文工程注入大模型,辅助智能决策。

动作:采用跨技术栈可注册机制,分通用动作(基础导航、页面交互、文件操作)与业务动作(如登录,由通用动作组合而成),基于Dom服务、Playwright、CDP协议等工具层实现,支持Web、Mobile、PC多环境适配。

工具:作为“能力契约”,需遵循十大原则,包括最小化与单一职责、强契约化(JSON Schema定义输入输出)、清晰标注副作用、标准化错误模型、设置超时重试边界、安全授权、可观测追踪、成本标注、多实现适配、版本化管理,确保工具调用规范、可控。

三、智能测试工具体系

结果智能分析Agent

核心目标:解决智能测试非确定性导致的结果模糊与误报问题。

分析逻辑:结合“场景意图(用例)、操作真相(步骤)、页面状态历史”,通过“归因四象限”判断结果:

真阳性(TP):确认为Bug或需改用例;

假阳性(FP):统一改进智能测试系统;

真阴性(TN):优化用例描述;

假阴性(FN):验证是否符合预期。

流程:执行动作后,结合环境状态与记忆,由LLM生成下一步动作,同步清理临时状态消息,更新执行结果与记忆。

用例智能改进Agent

改进思路:基于真实操作记录,从规范性、编写完整性、设计完整性三方面优化用例(L1:规范性问题如步骤缺失,L2:编写问题如描述模糊,L3:设计缺失如验证点不足)。

案例:原始用例未明确登录URL、文档保存动作,改进后补充完整登录流程、操作路径、多维度验证点(如弹窗显示时间、页面URL、功能可用性、操作日志),使验证覆盖率提升,步骤更贴合系统交互逻辑。

四、总结与展望

阶段总结

当前阶段:需求到报告流程中,用例编写、执行、分析仍需部分人工参与(如人工评审、执行);

后续阶段:将实现用例智能编写、智能执行,仅需人工抽检;

最终目标:全流程智能测试,无需人工干预,AI自主完成需求分析、用例生成、执行、维护与演进。

未来规划

持续优化智能体能力,提升规划精准性、记忆复用率、动作适配性、工具扩展性;

推动多智能体协同,覆盖测试全场景(功能、性能、安全等);

深化与业务场景融合,降低Agent使用门槛,实现规模化落地。


购买后查看全部内容