一、项目背景:需求与技术契机
手工测试用例痛点:需求复杂度高且跨领域,业务经验沉淀难;软件迭代周期缩至单周,需兼顾测试质量与效率;团队间数据壁垒高,业务经验难实时更新。
AI技术支撑:大模型推理能力跃升,融合知识图谱后语义理解精度优化;智能Agent、多轮对话等应用爆发,为辅助手工测试奠定技术基础。
二、平台设计:核心思路与架构
关键挑战:需求文档主观内容难理解、长文本输出压力大、专家经验与知识库配置解析难、召回排序复杂、用例统一管理难。
设计思路:以“原始需求→格式化文本→测试点→测试用例”流程,通过测试点过渡降低模型长文本压力;同步用RAG工程匹配业务回归用例,提升覆盖度。
架构分层:
应用层:含历史用例推荐、用例生成管理、Agent评测等功能,支持Xmind用例转化与需求格式化。
服务层:通过多Agent协作(需求格式化、测试点生成、用例生成)、Prompt与知识库协同、RAG召回工程实现核心逻辑。
数据层:依托Milvus向量库、历史用例表、评测数据集,支撑分词向量化、语义匹配等操作。
三、技术实现:核心策略与优化
多模型协同:按场景匹配模型(需求转化用非推理模型,测试点提取用推理模型),拆分任务分层处理,成本降低20%,耗时降低10%,且模型可无缝替换。
Multi Agent协作:格式转化Agent保障需求关键信息不丢失;测试点生成Agent叠加业务Prompt提升覆盖度;用例生成Agent按测试点类型匹配策略,严守质检原则。
RAG知识库增强:通过多轮扩写语义增强生成多Query,结合BM25关键词检索与BGE-dense语义检索实现多路召回,再经RRF融合排序输出Top-K用例,提升匹配精度。
工程优化:多线程并发执行减少等待时间;缓存复用需求格式化内容;简化强校验场景Prompt,Token消耗降低10%+。
拓展探索:将用例转化为BDD形式生成UI自动化代码,采用观察者模式提升执行精度;AI辅助需求理解(格式化PRD)与业务文档落档。
四、实践效果与未来展望
实践成效:中小项目需求中,AI生成用例干预前召回率40%-60%、干预后50%-70%,正确率40%-50%;生成耗时8-10分钟,Token消耗优化10%+。
未来方向:引入多模态模型分析设计稿/原型图;基于历史故障分析新需求测试风险;通过MCP输出测试数据;联动生成UI自动化代码并实现部署维护。