在线学AI

【王旭峰】基于大模型的客诉故障探测方案实践与思考
收藏

【王旭峰】基于大模型的客诉故障探测方案实践与思考

价格
0.00
收藏:0
简要介绍
编号 QEcon20250912sh.031 类型 顶会
顶会名称 QEcon 日期 2025年9月12日~13日
地域 上海

一、客诉故障探测的背景与价值

常规监控的核心痛点

回滚风险:部分变更问题在小流量环境未被监控发现,依赖客诉反馈时已导致生产回滚(x%生产回滚源于客诉);

布防成本高:非主链路低危场景监控ROI低,研发资源紧张时投入积极性不足;

监控缺失:存在监控遗漏、配置错误、保鲜困难等问题,无法完全覆盖所有业务场景。

客诉探测的核心价值:挖掘客诉中的潜在技术问题,避免零星客诉升级为大规模故障,增强线上问题“事中发现”能力,保障用户体验与线上质量,大模型技术为客诉故障探测提供了高效解决方案。

二、大模型驱动的客诉故障探测工程实践

1. 整体流程革新

传统流程中,用户进线→客服答疑→登记工单→指派研发,研发是“最后一个知道问题的人”;新流程通过大模型实现“用户进线数据→检测召回→问题路由→生成工单/告警→研发直接感知”,准实时触达技术团队,缩短问题响应链路。

2. 五大核心模块设计

(1)客诉问题检测召回

语义检测:通过“前置过滤(排除常见非技术问题)→粗判断(大模型初判潜在技术问题)→高危识别(定位白屏、报错等高危问题)→频次分析(新增/暴增问题提级)”四级流程,核心依赖Qwen模型+精细化Prompt(按业务/角色调优,采用角色扮演、COT思维链);

图片检测:先通过OCR识别“系统出错”“Undefined”等异常关键字,未命中则调用视觉模型(Qwen VL)检测白屏、Java异常、数据加载异常等;

后置过滤:结合问题危害度、频次等维度分级,减少无效告警。

(2)问题聚类

双向量库构建:语义向量库(客诉摘要经Embedding生成)、图片向量库(图片经Embedding生成),采用FLAT暴力搜索+余弦相似度保证准确率,支持分片存储提升效率;

两阶段聚类:一阶段筛选语义TopN+图片TopN候选,二阶段大模型精细比对,定期清理孤立类别防止膨胀,实现同类问题聚合。

(3)问题信息补充及排查

关键信息提取(NER):从客诉中提取订单号、运单号、时间等数据,结合用户/商家/骑手信息补充;

智能排查:通过Function Calling调用业务系统接口,自动生成排查方案,降低人工排查成本。

(4)工单分发

核心难点:技术链路长、业务交叉复杂,难确定归属;

分发策略:基于大模型语义分类(结合业务域定义Prompt)+图片分类(关联业务域图片知识库),支持语义/图片/混合三种策略,精准分发至功能/页面入口所属业务域。

(5)成本与效果平衡

优化措施:减少输入(仅取用户与客服前10句话)、限制输出(减少COT推理与聚类候选数)、前置过滤减少处理量,在Token消耗、推理速度、准确性间达成平衡。

3. 整体架构分层

AI基建层:依托向量DB、Qwen(文本)/Qwen VL(视觉)大模型、Text/Image Embedding模型,提供基础AI能力;

能力层:整合OCR、RAG知识库、问题排查Agent,支持接口开放与业务域配置;

产出层:输出预警工单、预警报表,覆盖语义/图片分析、业务路由、问题分级等核心功能。

三、落地效果与关键感受

核心效果指标:召回有效率>X%,低危客诉故障趋势同比/环比均下降X%,覆盖多客诉渠道与40+业务域,预警时效与潜在故障发现数显著提升。

实践感受

反馈闭环难:问题排查方法沉淀成本高,单纯RAG易错漏,提示词无法自动优化;

图文一体化是趋势:当前图文处理存在割裂,随视觉模型能力提升,需实现图文协同分析;

研发直面用户体验:让研发从客诉中感知用户视角的质量问题,增强责任感与成就感,以技术推动体验优化。


购买后查看全部内容