在线学AI

【甘磊磊】数据与知识双轮驱动的行业大模型研究与应用
收藏

【甘磊磊】数据与知识双轮驱动的行业大模型研究与应用

价格
0.00
收藏:0
简要介绍
编号 QEcon20250912sh.004 类型 顶会
顶会名称 QEcon 日期 2025年9月12日~13日
地域 上海

一、大模型发展背景与战略价值

AI发展浪潮:人工智能历经三次发展浪潮,当前处于以大模型为代表的阶段,2022年ChatGPT发布后大语言模型时代崛起。DeepSeek系列模型表现突出,如DeepSeek-R1推理能力逼近OpenAI-o1且过程透明,打破AI垄断,推动中文AI普惠。

双轮驱动必要性:构建领域推理大模型面临数据(收集难、多模态融合难)、知识(体系异构、更新快、注入不充分)、推理(融合难、成本高、有幻觉)三大挑战,需数据与知识双轮驱动,助力企业低成本构建专属大模型。

二、以数据为中心的大模型后训练

幻觉克服

针对法律领域,构建LegalHalBench评测基准(含3976个问题、1670条法条),提出HIPO方法,非幻觉法条准确率达38.353%,超越多款通用及专用法律大模型。

针对多模态模型,设计Detect-then-Rewrite流程,从闭源模型蒸馏细粒度回复,HSA-DPO方法将AMBER基准幻觉率降36.1%,Object HalBench中CHAIRS基准降76.3%。

推理增强:提出FAST-GRPO方法,通过动态采样、思考奖励、动态约束实现快-慢思考结合,在多模态推理任务上准确率相对提升超10%,推理token压缩30%-60%,3B和7B模型尺寸均有良好表现。

三、领域知识增强的大模型可信推理

LoraRetriever:基于检索动态加载组合LoRA模块,用少量样本嵌入代表LoRA,训练稠密向量检索模型,根据输入检索Top-K模块增强LLM能力,适配多样化任务需求。

Legal-R1:评估17个法律推理基准任务(7英文、10中文),构建双语数据集,训练Legal-R1-14B模型,性能媲美强大专有及开源模型,DeepSeek-R1等推理大模型优于传统LLM。

T2I-FactualBench:以CNER为概念标准,筛选BabelNet知识库概念,构建1600条图文数据集,设计三层生成任务(记忆、实例化、组合),提出多轮VQA评估,引入视觉与文本知识注入方法检测文生图模型知识幻觉。

四、双轮融合的行业大模型研发

研发“智海”系列垂直领域大模型,覆盖多行业:

教育领域(智海-三乐):联合高教社、阿里云等,基于通义千问,提供智能问答、试题生成等服务,2023年8月发布,支撑教与学全流程。

司法领域(智海-录问):与阿里达摩院合作,开源后在魔搭社区下载8592次、访问11万+次,落地60家法院,辅助1.5万+案件,当庭宣判率90%+,裁判文书完整度95%+,效率提40%。

德语教学(智海启德Dr.Write):基于德语写作偏误语料库,通过有监督微调与自监督学习,辅助德语Q-A问答、错误纠正,解决标注数据不均衡问题。

五、典型示范应用成效

司法应用:“小智”智能化审判系统落地全国1万+法庭,辅助1.8万+案件,当庭宣判率90%+,裁判文书完整度96.5%+,效率提40%,当事人诉讼成本降31.2%;“智海-录问”“LegalMind”月均使用150万+次,联合发布首个《法律大模型评估指标和测评方法》。

教育应用:入选国家教材建设重点研究基地,出版AI系列教材(理论26本、实践11本),发布师生AI素养红皮书;构建AI通识课程体系,成立教育教学研究中心,“AI+X微专业”入选教育部典型案例,智海科教平台赋能3万学习者,覆盖多所院校。

购买后查看全部内容