一、行业智能体评测的背景与数据痛点
评测核心价值:行业智能体(如政务助手、就业AI、出行助手)需通过评测实现三大目标——可量化跟踪领域进展、对比多模型能力、监控训练/微调过程,数据质量直接决定评测信度,低质量数据会导致模型能力误判、评测结果失真,最终引发产品上线失败。
传统数据方案的三大痛点:
不够用:人工编写效率低、线上回流数据场景覆盖有限,长尾案例与多轮对话数据稀缺,难以支撑复杂Agent评测。
不能用:数据质量低劣,存在标注错误、格式混乱、噪声多(如意图不明的“做啥车”、非功能性的“你好”)等问题,无法真实反映模型能力。
不好用:获取成本高、更新周期长、维护难度大,扩展性差,难以适配行业智能体快速迭代需求。
破局方向:构建“高仿真、可控、高效”的合成数据,替代传统数据方案,Gartner预测2028年合成数据将占AI数据的80%(2024年仅20%)。
二、Synthi数据合成框架:工程化解决方案
合成数据定义与优势:合成数据是“算法生成+真实感模拟+可控构造”的高仿真虚拟数据,对比真实数据,具备获取成本低、隐私合规风险极低、场景可主动构造、更新快、质量一致性高的核心优势,可覆盖“精通Python+教师经验+兼职”等罕见复合场景。
技术路径演进:从“规则模板法”(手工槽位填充,表达单一)、“小模型生成”(自然度低、逻辑性差),演进至“大模型+Prompt工程”(语义自然、支持多轮对话与复杂意图,可定制风格/角色/场景)。
Synthi框架核心能力:解决传统合成方式“难复用、难追溯、质量不可控”问题,实现“可复用、可追溯、可评估、可协同”:
组件化Step设计:封装Prompt、LLM调用、后处理等Step,支持跨项目复用,积累团队知识资产。
全链路版本管理:Pipeline配置纳入Git控制,记录生成时的模型、参数、时间,支持数据反向追溯,确保实验可复现。
自动化质量评估:内置逻辑一致性、语义真实性打分器,支持自定义规则,输出质量报告筛选高价值样本,避免“生成1万条仅30%可用”的浪费。
团队协作支持:统一平台共享Step库与模板,支持评审/合入/发布流程,标准化输出HF Dataset格式,无缝对接训练/评测。
三、个性化数据合成:适配行业场景需求
三阶闭环设计:通过“数据生成→数据治理→数据评估”闭环,适配不同行业智能体的个性化需求:
数据生成:基于CartesianProductGeneration(多条件组合,避免逻辑冲突,如“54岁应届生”)、TextGeneration(LLM推导衍生标签,如职业偏好),生成场景化Query,支撑就业AI、出行助手等场景。
数据治理:采用“词频去重(字面匹配,高效剔除重复)+语义去重(embedding向量检索,识别同义改写)”,通过MinHash+LSH实现万级样本秒级去重,解决冗余问题。
数据评估:从“内在质量”(完整性、准确性、一致性等)与“使用质量”(模型区分能力、人类偏好一致性)双维度评估,通过层次分析法(AHP)计算综合质量得分,确保数据可用性。
典型应用场景:
评测数据生成:为就业AI生成含真实用户画像的Query,避免逻辑冲突,支撑多模态交互评测。
Planning训练数据生成:预设工具调用顺序(如“天气查询→景点推荐”),生成Query-Label配对数据,支持智能体学习多步推理与工具使用。
四、未来展望
技术演进方向:
基于知识的主动合成:结合行业知识库/知识图谱,自动化生成具有挑战性的评测用例,覆盖更复杂、更全面的场景。
基于数据的闭环增强:联动线上真实交互数据,筛选并人工打标Bad Case与高质量样本,持续优化Synthi框架,提升合成数据的真实性与挑战性。
核心目标:为行业智能体评测提供“更真实、更全面、更具挑战性”的数据支撑,推动评测体系从“标准化”向“精准化、个性化”升级,保障智能体产品质量与用户体验。