在线学AI

【王旭峰】基于大模型的客诉故障探测方案实践与思考

价格：

￥0.00

收藏：0

简要介绍

一、客诉故障探测的背景与价值

常规监控的核心痛点：

回滚风险：部分变更问题在小流量环境未被监控发现，依赖客诉反馈时已导致生产回滚（x%生产回滚源于客诉）；

布防成本高：非主链路低危场景监控ROI低，研发资源紧张时投入积极性不足；

监控缺失：存在监控遗漏、配置错误、保鲜困难等问题，无法完全覆盖所有业务场景。

客诉探测的核心价值：挖掘客诉中的潜在技术问题，避免零星客诉升级为大规模故障，增强线上问题“事中发现”能力，保障用户体验与线上质量，大模型技术为客诉故障探测提供了高效解决方案。

二、大模型驱动的客诉故障探测工程实践

1. 整体流程革新

传统流程中，用户进线→客服答疑→登记工单→指派研发，研发是“最后一个知道问题的人”；新流程通过大模型实现“用户进线数据→检测召回→问题路由→生成工单/告警→研发直接感知”，准实时触达技术团队，缩短问题响应链路。

2. 五大核心模块设计

（1）客诉问题检测召回

语义检测：通过“前置过滤（排除常见非技术问题）→粗判断（大模型初判潜在技术问题）→高危识别（定位白屏、报错等高危问题）→频次分析（新增/暴增问题提级）”四级流程，核心依赖Qwen模型+精细化Prompt（按业务/角色调优，采用角色扮演、COT思维链）；

图片检测：先通过OCR识别“系统出错”“Undefined”等异常关键字，未命中则调用视觉模型（Qwen VL）检测白屏、Java异常、数据加载异常等；

后置过滤：结合问题危害度、频次等维度分级，减少无效告警。

（2）问题聚类

双向量库构建：语义向量库（客诉摘要经Embedding生成）、图片向量库（图片经Embedding生成），采用FLAT暴力搜索+余弦相似度保证准确率，支持分片存储提升效率；

两阶段聚类：一阶段筛选语义TopN+图片TopN候选，二阶段大模型精细比对，定期清理孤立类别防止膨胀，实现同类问题聚合。

（3）问题信息补充及排查

关键信息提取（NER）：从客诉中提取订单号、运单号、时间等数据，结合用户/商家/骑手信息补充；

智能排查：通过Function Calling调用业务系统接口，自动生成排查方案，降低人工排查成本。

（4）工单分发

核心难点：技术链路长、业务交叉复杂，难确定归属；

分发策略：基于大模型语义分类（结合业务域定义Prompt）+图片分类（关联业务域图片知识库），支持语义/图片/混合三种策略，精准分发至功能/页面入口所属业务域。

（5）成本与效果平衡

优化措施：减少输入（仅取用户与客服前10句话）、限制输出（减少COT推理与聚类候选数）、前置过滤减少处理量，在Token消耗、推理速度、准确性间达成平衡。

3. 整体架构分层

AI基建层：依托向量DB、Qwen（文本）/Qwen VL（视觉）大模型、Text/Image Embedding模型，提供基础AI能力；

能力层：整合OCR、RAG知识库、问题排查Agent，支持接口开放与业务域配置；

产出层：输出预警工单、预警报表，覆盖语义/图片分析、业务路由、问题分级等核心功能。

三、落地效果与关键感受

核心效果指标：召回有效率＞X%，低危客诉故障趋势同比/环比均下降X%，覆盖多客诉渠道与40+业务域，预警时效与潜在故障发现数显著提升。

实践感受：

反馈闭环难：问题排查方法沉淀成本高，单纯RAG易错漏，提示词无法自动优化；

图文一体化是趋势：当前图文处理存在割裂，随视觉模型能力提升，需实现图文协同分析；

研发直面用户体验：让研发从客诉中感知用户视角的质量问题，增强责任感与成就感，以技术推动体验优化。

购买后查看全部内容