一、AE导购业务背景与质量挑战
业务特征:导购业务覆盖首页、会场、频道、个人中心四大模块,日常与大促期间差异显著——大促期间页面超百张、配置频繁调整(如新增大促楼层、氛围配置),涉及多语种(如英文、日语)、多币种,链路涵盖“招-选-搭-投”全流程。
核心挑战:
规模与效率矛盾:大促用例超万条、测试时间紧(前置环节易延迟),人工验收耗时达50人日;
动态化与稳定性冲突:页面动态生成,大促期间仍频繁调整,发布管控难;
问题类型多样:含素材展示异常(重叠、色差)、多语言漏翻、核心模块缺失、商品类目不符、空坑白屏等,传统测试难以全覆盖。
二、核心解法与思路
问题解决路径:遵循“识别问题→定义规则→平台化解决→AI提效”四步走,先复盘大促与线上问题,归类提炼检测原子能力,再搭建巡检平台,最后引入AI大模型优化全链路。
关键规则定义:将问题按检测类型分类,明确实现思路:
图片检测类:如Banner心智文案检测(配置分国家信息+大模型识别截图)、多语言币种检测(大模型解析截图文案/币种)、空坑检测(调用空坑算法);
日志检测类:如重点楼层缺失检测(对比页面模版与接口数据)、运行时异常检测(分析前后端链路日志);
数据检测类:如商品类目不符检测(解析接口数据+大模型判断匹配度)、楼层核心字段检测(校验接口返回字段完整性)。
三、巡检平台实现方案
整体架构:分四层设计,覆盖全链路能力:
业务接入层:支持大促/日常巡检、模块搭建预览等卡口,提供任务管理(创建/执行/重试);
用户操作层:含设备管理、任务管理,支持多端(真机/PC/MSite)巡检;
任务管理层:负责任务拆解、设备轮询与占用、超时异常处理,构造任务树调度执行;
执行引擎层:部署容器环境,驱动自动化脚本执行,上传截图与日志,调用原子检测服务。
核心流程:触发任务→任务管理系统拆解检测项→占用设备→执行引擎执行脚本并上报数据→原子检测服务断言→返回结果至前台,支持检测失败一键提缺陷。
关键检测流程:
图片检测:通过UI自动化框架dump页面结构,结合大模型识别文案/币种、图片算法对比视觉稿,判断是否符合预期;
日志检测:分析链路日志与接口数据,定位空坑、楼层不展示原因(如配置错误、链路异常),支持人工介入排查。
四、AI大模型的实践应用
巡检检测规则生成Agent:
能力升级:从“人工写用例”(阶段一)、“人工写校验点+AI断言”(阶段二),进化到“AI自动生成校验点+断言”(阶段三),依托向量知识库(设计稿、多语言文案),生成适配各场域的视觉校验点(如页头颜色、搜索框存在性),节省50%校验点编写人力。
典型场景:空坑检测(多模态AI识别页面元素坐标,计算垂直/水平间距判定空坑位置)、文案截断检测(大模型解析截图输出异常文案)。
规划执行与断言Agent:
规划执行:基于Qwen2.5-VL-72B-Instruct模型,结合测试用例与实时截图,动态规划操作步骤(如打开App、滑动页面),转化为adb/AirTest指令下发;
结果断言:通过Qwen-VL-Max模型,对比全流程截图与用例描述,判断是否符合预期;
优化策略:针对误报/漏报,通过细化Prompt、增强业务知识库(如商品页必含价格)、多级校验(先几何特征判断,再结合业务规则)提升准确率。
五、落地效果与未来规划
核心成效:
效率提升:验收人力投入降低50%,任务耗时从2-3天缩短至4小时(夜间执行、白天验收);
质量保障:问题识别准确率达80%,覆盖白屏、破页等核心场景,减少线上问题;
未来方向:
链路打通:接入CI/CD,实现“变更-发布-检测-优化”闭环;
能力扩展:新增AI视频检测,贴近用户真实交互场景;
资源弹性:借助云资源与云真机,实现巡检能力弹性扩缩。