一、AI大模型评测能力建设背景
技术与业务需求:大模型成为企业战略投资方向,医疗、金融等垂直领域应用激增(如医疗领域的临床文档处理、健康咨询),亟需专业评测能力保障产品质量;传统软硬件非黑即白的评测逻辑不适用大模型,需解决“测试数据集来源”“评测维度”“评测工具”三大核心问题。
核心痛点:缺乏高效精准的测试数据集构建方法;大模型评测结果无明确对错边界,需定义多维度评估标准;需适配不同业务场景(如问答、文本生成)的专属评测工具与流程。
二、AI大模型评测能力实现方案
三步骤评测流程
确定评测目标:从业务场景出发,明确指标(如问答系统需评估相关性、逻辑性,文本生成需评估准确性、连贯性),核心指标含回复相关性(cosine相似度)、正确性(准确率/困惑度)、专业性、用户友好性等。
制定评测方法:构建“数据集管理+模型管理+评测任务管理”系统,采用客观性评测(模型自动评分)、人工主观评测、基于模型的评测结合的方式,适配不同场景需求。
实施评测工作:执行评测任务并记录结果,分析BadCase定位模型不足,优化后进行复测,形成闭环。
关键模块设计
数据集管理:通过四类来源构建数据集——行业标准数据集(如医疗领域MedBench,含5大维度22个数据集)、模型对话生成数据集(用户模型与被测模型交互生成多轮会话)、线上数据建模数据集(提取top N真实问答数据)、单轮/多轮会话数据集(Excel上传或接口同步,多轮需含session和round字段)。
模型管理:支持HTTP/RPC对接外部模型,配置模型code、ApiKey及可见范围;多轮会话通过message_history或chatCode关联;支持参数化请求体构建与JsonPath/Groovy脚本提取响应结果。
评测任务管理:支持三种任务类型——仅推理(生成答案)、仅评测(评估已有答案)、推理&评测(先生成再评估);评分规则以Prompt形式定义,贴合产品定位(如情感对话需评估趣味性,营养师咨询需评估专业性)。
三、AI大模型评测能力应用场景
单轮会话评测:每行数据独立评测,无上下文关联,如智能营养师产品中“什么时候喝蛋白粉最有效”的回复,从专业性、逻辑性等10个维度评分(案例中总分91,创新性稍弱但整体优质)。
多轮会话评测:分两类场景——一是仅含提问信息,基于历史对话推理下一轮回复并评测(如“小叽你太可爱了→你想玩什么”的上下文关联);二是含提问与答案信息,固定问题对比不同模型表现,用于模型选型。
多模型比对:对比被测模型与标杆模型的差异,适用于垂类专业度评估(如医药领域“莱博雷生主治疾病”,纠正被测模型将“失眠药”误判为“胃药”的错误)。
AI Agent对接:复杂评分规则(如关联知识库)可通过创建评分智能体完成,集成知识库、工作流、MCP工具等,提升评测灵活性与深度。
四、落地应用与未来展望
落地成效:已应用于京东健康“康康”等产品,覆盖人机对话效果评测(AI医生、营养师)、多轮会话数据集构建、模型选型、搜索结果合理性评估、批量数据加工(意图归类、生成追问)等场景,可精准识别模型与标杆模型的差异化差距。
未来方向
多模态评测融合:构建跨模态联合评估框架,动态分配图像、文本等模态权重(如医疗模型需同时理解医学图像与文本),贴合真实场景需求。
垂类领域深化:各领域构建专属数据集(如金融领域合规数据集),引入伦理、安全性等新指标,强化严肃领域评测的严谨性。