一、大模型自主测试的核心痛点
全流程不确定性导致落地难:
语义理解不确定:同一用例多次生成步骤逻辑不同,存在漏测风险;
执行过程不确定:相同脚本时过时而失败,难判原因易误导;
自愈效果不确定:修复可能越修越错,全量重验耗时且易出“假阳性”;
结果判定不确定:误判页面状态(如将loading当成功),颠覆测试价值,关键业务不敢用。
核心矛盾:“自动化期望”与“不可控/不稳定”冲突,“自然语言描述→AI生成脚本”的工具难以常态化落地。
二、技术抉择:效率与可控性双平衡
核心策略:
可控性优先:关键节点(步骤生成环节)设人工干预,仅需“步骤级确认”而非“脚本级干预”,对齐业务预期,杜绝大模型逻辑偏离;
效率不妥协:大模型负责创造性任务(用例分析、步骤生成),工具承担标准化工作(脚本生成、执行验证),分工协作兼顾可靠与实用。
关键技术思路:
脚本自动生成:遵循“单步生成→即时验证→成功保存→循环下一步”逻辑,告别手工编写,减少调试工作量;
执行自愈:从“脚本生产端自动化”延伸至“执行端自愈”,解决脚本维护耗时、人工介入繁琐问题,构建“生成→执行→自愈→再执行”闭环。
三、工程实践:WebAutoPlex自动化测试体系
1. 整体架构与流程
全链路拆解:用例分析→步骤生成→人工确认→脚本生成→执行自愈,工具间数据自动流转,支持个性化布局与极速启动;
核心工具模块:用例分析工具(AI/本地分析器)、用例生成工具(页面分析器、脚本生成器)、用例执行工具(任务调试器、故障分析器、脚本自愈器)、录制工具(录制引擎)。
2. 关键模块设计
用例分析:精准提取用例核心要素(场景/预期/元素),生成结构化数据适配Agent,Agent输出含操作类型、定位标识的步骤,直连脚本生成器;
脚本自动生成:基于Playwright API二次开发,支持11种元素定位方法,确保脚本符合语法与多环境适配,添加3秒等待避免页面渲染时差导致的误判;
执行自愈:
故障分类:精准识别9类高频故障(元素未找到、网络错误、断言失败等);
自愈策略:内置14种修复策略(重新生成选择器、页面刷新、强制点击等),失败后自动分析页面→生成新脚本重试→成功更新用例,失败则终止;
可视可控:执行仪表板实现“任务创建-监控-自愈日志-统计报告”全链路可视化,支持进度跟踪与失败追溯。
四、收益量化:从技术创新到业务价值
核心效能提升:
效率:脚本编写耗时从20分钟/用例降至5分钟/用例(降75%),回归用例执行时间大幅缩短(116条用例从5.8小时→17分钟);
质量:动态页面执行成功率从65%(传统工具)→92%,线上问题反馈量减少35%,测试覆盖率从50%→85%;
成本:人工修复脚本占比从60%→15%,测试周期缩短40%,测试人员精力从“60%脚本编写”转向“70%用例设计与异常分析”。
业务价值转化:
以“业务需求”为锚点,80%高频故障自动自愈使测试工时减少72%,单迭代周期压缩30%-40%;
建立“技术价值→业务价值”翻译机制,避免“两张皮”,推动工具从“测试效能工具”升级为“业务质量中枢”。
五、总结与展望
经验总结:
可控性优先于“全自动”,最小化人工干预换取最大化可控;
工具化能力高于“大模型依赖”,核心逻辑沉淀为可复用模块;
自愈设计需区分“脚本问题”与“功能缺陷”,避免误判。
未来方向:
场景拓展:从Web端单一场景到“全终端+全流程”覆盖;
能力深化:从“规则化自愈”到“智能化决策”;
生态融合:从独立工具到跨系统协同生态;
价值升级:从测试效能工具到业务决策支撑平台。