一、AI效能提升的核心瓶颈:知识体系问题
研发域知识痛点:存量知识体系零散不完整,隐性知识多沉淀于专家脑中,难以系统化沉淀复用;知识增强需“外挂知识(RAG、知识图谱)”与“模型内化(Embedding微调、LLM训练)”双路径,但高质量知识供给不足。
研发变革需求:研发层次从指令式向意图式升级,范式从敏捷式向智能式演进,资产从代码工程向知识工程转变,需构建结构化知识体系支撑全链路自动化(需求、设计、测试、代码域)。
二、知识体系构建核心策略:知识挖矿
核心目标:实现知识“结构化、显性化”,解决矿源多样(文档、代码、用例等)、知识质量差(模板/术语不统一)、技术壁垒高、人力紧缺等挑战,最终达成高效、准确、可推广的知识应用。
两大挖矿方向
正向挖矿:自上而下从存量文档(需求方案、FT文本用例等)构建知识体系,如从需求方案挖特性库、子系统方案库,依赖存量知识质量,可能存在不完整问题。
逆向挖矿:自下而上从代码/FT代码逆向挖掘,通过代码分析组件方案,再构建子特性/子系统/特性方案,能实时反馈真实业务功能,确保知识体系准确完整。
知识飞轮闭环:以“知识生产(挖矿)-知识沉淀-知识消费(AI应用)-知识反馈”形成闭环,推动知识持续优化。
三、知识挖矿的技术路径与解决方案
整体技术架构:基于DevOps+平台构建标准化挖矿流水线,集成数据采集、清洗、知识抽取、评估等算子,支持正向(内容域)与逆向(代码域)挖矿,算子能力可通过配置文件扩展。
内容域正向挖矿
关键技术:多向量库(需求名称、需求总结、需求关键段落库)构建RAG,采用多路召回(语义、全文、混合检索)提升召回率;通过Prompt设计(思维链拆解、输出示例)增强LLM指令跟随能力,实现知识关系抽取与融合。
流程:数据采集→清洗→规则解析→知识抽取→RAG构建→知识检索→质量评估→知识入库,配套标准化评测算子(知识关系检索、融合效果)。
代码域逆向挖矿
关键技术:用Repo-Map分析代码目录结构,Tree-sitter做语法解析,自底向上完成语义分析(函数/文件/模块语义、依赖关系);输出代码架构视图(UML/Plantuml格式)、功能清单(含入口与描述)、功能设计思路(流程、算法、数据结构)。
流程:代码获取→语义抽取→业务功能分析→架构分析→知识质量评估→知识入库,聚焦业务功能与架构维度评测。
调优与评测:通过优化内容质量、Prompt设计、检索算法(权重、top-k)提升RAG效果;制定评测标准,如知识关系评测查全率≥75%、准确率≥50%,代码挖矿准确率≥80%。
四、用户收益与后续演进
核心收益
知识体系建设:助力需求域知识图谱、运维域故障知识库(智能防火墙)、FT代码元素库(相似用例库)建设,支撑需求Copilot、故障定位机器人等AI应用落地。
效能提升:标准化挖矿流水线复制达40+条,覆盖需求、开发、运维域,如特性波及分析效率提升,FT代码生成辅助能力增强。
后续规划:持续提升挖矿能力,增加人机交互模式,通过用户反馈优化挖矿效果;依托赛马平台、公共资源池与教练赋能,扩大知识挖矿应用范围。