在线学AI

【孙暕晖】微信IH-VQA:iMatch算法在AIGC质量评测中的实践
收藏

【孙暕晖】微信IH-VQA:iMatch算法在AIGC质量评测中的实践

价格
0.00
收藏:0
简要介绍
编号 QEcon20250912sh.010 类型 顶会
顶会名称 QEcon 日期 2025年9月12日~13日
地域 上海

一、问题分析与核心挑战

核心痛点:AIGC生图存在“图文不符”问题,用户投诉增加(如“双胞胎背对背拼拼图”画错姿势、“指挥家甩汗珠”漏画汗珠);内部需高效评估文生图模型质量以支撑快速迭代,传统方法难以满足细粒度与准确性需求。

赛事背景:参与CVPR 2025 NTIRE AIGC图文匹配大赛,赛题提供30K训练、10K验证、5K测试图文对,需评估图文匹配度(prompt/element level),核心指标为SRCC(单调性)、PLCC(准确性)、ACC(元素描述准确率),测试阶段闭榜且难度更高。

二、技术抉择与创新解法

iMatch算法核心设计:采用双模型驱动,结合Prompt解析与元素评分,增强模型对图文匹配的内在关联理解,输出整体匹配分(1-5分)与元素匹配分(1-7分,从“毫无刻画”到“完美刻画”)。

关键优化策略

数据增强:用初赛数据作为伪标签补充训练集,提升少样本场景性能;对图像进行亮度调整、网格畸变、裁剪等视觉增强,丰富训练数据多样性。

Q-Align概率映射:将人类主观评分档位(1-5分)映射为文本描述(bad-excellent),模拟人类评分过程,教导多模态模型(LMMs)对齐人类意见,优化评分准确性。

多增强组合消融:验证QAlign增强、验证集增强、元素增强、图像增强对不同基础模型(如InternVL2.5-8B-MPO、Qwen2.5-VL-7B-Instruct)的效果,组合增强后模型性能显著提升。

性能突破:在EvalMuse-40K验证集上,iMatch算法SRCC达0.8304、PLCC 0.8294,元素匹配ACC 0.8284,全面超越CLIPScore、FGA-BLIP2等SOTA方法。

三、比赛成绩与业务实践

赛事成果:在NTIRE 2025大赛中,iMatch算法以主评分0.8551斩获冠军,SRCC(0.8249)、PLCC(0.8485)、ACC(0.8734)三项关键指标均显著领先第二名,刷新领域性能基准。

业务落地场景

细粒度图文匹配评测:可精准判断不同文生图模型的生成效果,如对“小女孩吹肥皂泡”“摇滚歌手呐喊流汗”等prompt,能区分元素(如“金发碧眼”“汗水”)的刻画程度,量化模型优劣。

多领域质量检查:应用于文章标题封面匹配、相册图文特征搜索(如匹配“石碑、龙、亚洲建筑”等元素)、商品首图与名称匹配(如空气炸锅专用纸)、安全场景关键词匹配(如“血腥暴力”排查),覆盖内容生态多环节。

构建iMatch-benchmark:针对原始评测集模型数据分布不均问题,构建公平全面的多维度评测基准,支持对Midjourney_v6.1、SD3、flux1.1-pro等20+主流文生图模型的细粒度评估。

四、未来思考

能力拓展:补充行业图文匹配跨模态质量评价空白,探索图片智能描述、视频质量感知、高光时刻内容提取等场景,覆盖“有图无文”“有文无图”等更多需求。

模型赋能:将iMatch用于基础模型评估、reward预训练,结合画质、创意等维度构建综合AIGC质量评估体系,进一步支撑AIGC模型迭代与业务落地。

购买后查看全部内容