在线学AI

【杨吉喆】知识挖矿技术在研发体系中的实践应用

价格：

￥0.00

收藏：0

简要介绍

一、AI效能提升的核心瓶颈：知识体系问题

研发域知识痛点：存量知识体系零散不完整，隐性知识多沉淀于专家脑中，难以系统化沉淀复用；知识增强需“外挂知识（RAG、知识图谱）”与“模型内化（Embedding微调、LLM训练）”双路径，但高质量知识供给不足。

研发变革需求：研发层次从指令式向意图式升级，范式从敏捷式向智能式演进，资产从代码工程向知识工程转变，需构建结构化知识体系支撑全链路自动化（需求、设计、测试、代码域）。

二、知识体系构建核心策略：知识挖矿

核心目标：实现知识“结构化、显性化”，解决矿源多样（文档、代码、用例等）、知识质量差（模板/术语不统一）、技术壁垒高、人力紧缺等挑战，最终达成高效、准确、可推广的知识应用。

两大挖矿方向

正向挖矿：自上而下从存量文档（需求方案、FT文本用例等）构建知识体系，如从需求方案挖特性库、子系统方案库，依赖存量知识质量，可能存在不完整问题。

逆向挖矿：自下而上从代码/FT代码逆向挖掘，通过代码分析组件方案，再构建子特性/子系统/特性方案，能实时反馈真实业务功能，确保知识体系准确完整。

知识飞轮闭环：以“知识生产（挖矿）-知识沉淀-知识消费（AI应用）-知识反馈”形成闭环，推动知识持续优化。

三、知识挖矿的技术路径与解决方案

整体技术架构：基于DevOps+平台构建标准化挖矿流水线，集成数据采集、清洗、知识抽取、评估等算子，支持正向（内容域）与逆向（代码域）挖矿，算子能力可通过配置文件扩展。

内容域正向挖矿

关键技术：多向量库（需求名称、需求总结、需求关键段落库）构建RAG，采用多路召回（语义、全文、混合检索）提升召回率；通过Prompt设计（思维链拆解、输出示例）增强LLM指令跟随能力，实现知识关系抽取与融合。

流程：数据采集→清洗→规则解析→知识抽取→RAG构建→知识检索→质量评估→知识入库，配套标准化评测算子（知识关系检索、融合效果）。

代码域逆向挖矿

关键技术：用Repo-Map分析代码目录结构，Tree-sitter做语法解析，自底向上完成语义分析（函数/文件/模块语义、依赖关系）；输出代码架构视图（UML/Plantuml格式）、功能清单（含入口与描述）、功能设计思路（流程、算法、数据结构）。

流程：代码获取→语义抽取→业务功能分析→架构分析→知识质量评估→知识入库，聚焦业务功能与架构维度评测。

调优与评测：通过优化内容质量、Prompt设计、检索算法（权重、top-k）提升RAG效果；制定评测标准，如知识关系评测查全率≥75%、准确率≥50%，代码挖矿准确率≥80%。

四、用户收益与后续演进

核心收益

知识体系建设：助力需求域知识图谱、运维域故障知识库（智能防火墙）、FT代码元素库（相似用例库）建设，支撑需求Copilot、故障定位机器人等AI应用落地。

效能提升：标准化挖矿流水线复制达40+条，覆盖需求、开发、运维域，如特性波及分析效率提升，FT代码生成辅助能力增强。

后续规划：持续提升挖矿能力，增加人机交互模式，通过用户反馈优化挖矿效果；依托赛马平台、公共资源池与教练赋能，扩大知识挖矿应用范围。

购买后查看全部内容