一、客诉故障探测的背景与价值
常规监控的核心痛点:
回滚风险:部分变更问题在小流量环境未被监控发现,依赖客诉反馈时已导致生产回滚(x%生产回滚源于客诉);
布防成本高:非主链路低危场景监控ROI低,研发资源紧张时投入积极性不足;
监控缺失:存在监控遗漏、配置错误、保鲜困难等问题,无法完全覆盖所有业务场景。
客诉探测的核心价值:挖掘客诉中的潜在技术问题,避免零星客诉升级为大规模故障,增强线上问题“事中发现”能力,保障用户体验与线上质量,大模型技术为客诉故障探测提供了高效解决方案。
二、大模型驱动的客诉故障探测工程实践
1. 整体流程革新
传统流程中,用户进线→客服答疑→登记工单→指派研发,研发是“最后一个知道问题的人”;新流程通过大模型实现“用户进线数据→检测召回→问题路由→生成工单/告警→研发直接感知”,准实时触达技术团队,缩短问题响应链路。
2. 五大核心模块设计
(1)客诉问题检测召回
语义检测:通过“前置过滤(排除常见非技术问题)→粗判断(大模型初判潜在技术问题)→高危识别(定位白屏、报错等高危问题)→频次分析(新增/暴增问题提级)”四级流程,核心依赖Qwen模型+精细化Prompt(按业务/角色调优,采用角色扮演、COT思维链);
图片检测:先通过OCR识别“系统出错”“Undefined”等异常关键字,未命中则调用视觉模型(Qwen VL)检测白屏、Java异常、数据加载异常等;
后置过滤:结合问题危害度、频次等维度分级,减少无效告警。
(2)问题聚类
双向量库构建:语义向量库(客诉摘要经Embedding生成)、图片向量库(图片经Embedding生成),采用FLAT暴力搜索+余弦相似度保证准确率,支持分片存储提升效率;
两阶段聚类:一阶段筛选语义TopN+图片TopN候选,二阶段大模型精细比对,定期清理孤立类别防止膨胀,实现同类问题聚合。
(3)问题信息补充及排查
关键信息提取(NER):从客诉中提取订单号、运单号、时间等数据,结合用户/商家/骑手信息补充;
智能排查:通过Function Calling调用业务系统接口,自动生成排查方案,降低人工排查成本。
(4)工单分发
核心难点:技术链路长、业务交叉复杂,难确定归属;
分发策略:基于大模型语义分类(结合业务域定义Prompt)+图片分类(关联业务域图片知识库),支持语义/图片/混合三种策略,精准分发至功能/页面入口所属业务域。
(5)成本与效果平衡
优化措施:减少输入(仅取用户与客服前10句话)、限制输出(减少COT推理与聚类候选数)、前置过滤减少处理量,在Token消耗、推理速度、准确性间达成平衡。
3. 整体架构分层
AI基建层:依托向量DB、Qwen(文本)/Qwen VL(视觉)大模型、Text/Image Embedding模型,提供基础AI能力;
能力层:整合OCR、RAG知识库、问题排查Agent,支持接口开放与业务域配置;
产出层:输出预警工单、预警报表,覆盖语义/图片分析、业务路由、问题分级等核心功能。
三、落地效果与关键感受
核心效果指标:召回有效率>X%,低危客诉故障趋势同比/环比均下降X%,覆盖多客诉渠道与40+业务域,预警时效与潜在故障发现数显著提升。
实践感受:
反馈闭环难:问题排查方法沉淀成本高,单纯RAG易错漏,提示词无法自动优化;
图文一体化是趋势:当前图文处理存在割裂,随视觉模型能力提升,需实现图文协同分析;
研发直面用户体验:让研发从客诉中感知用户视角的质量问题,增强责任感与成就感,以技术推动体验优化。