一、多媒体画质评估任务综述
核心场景与痛点:覆盖PGC(高质量但内容有限)、UGC(质量参差)、AIGC(高效但易出问题)三类内容生产范式,用户在图像发布、直播、AI修复等场景常遇画质失真(如模糊、色彩偏差);需平衡画质、成本、性能的“不可能三角”,兼顾视觉效果与码率成本。
评估体系演进:从基础画质维度(亮度、对比度等)扩展至多模态效果,针对UGC需主客观评测结合,AIGC则需评估生成内容的保真度、一致性等,抖音构建端到端多媒体质量分析体系,覆盖生产(转码、增强)、服务(审核、处理)、消费(解码、渲染)全链路。
自研评估工具:推出EvalMuse文生图评估体系,含40K细粒度标注数据,覆盖元素级对齐、结构问题等维度,在多个基准测试中表现优于CLIPScore、ImageReward等工具;Seedream3.0在EvalMuse等指标上超越主流文生图模型。
二、大模型重新定义可解释性画质评估
传统IQA局限:传统画质评估(IQA)泛化能力弱、输出单一(仅分数)、精度与可解释性差,无法定位失真区域与原因。
VLM的革新作用:多模态大模型(VLM)实现“定位-感知-描述”一体化评估,单图场景支持失真定位(Grounding)、视觉问答(VQA)、选择题评测,多图场景可对比细节并归因;通过ViDA框架构建任务体系,涵盖质量描述、定位、感知三大任务。
数据与训练优化:构建ViDA-UGC数据集,含10K+精标图像、10+退化类型,采用改进MILP算法保证样本分布均衡,5名以上专业人员审核标注;训练时让大模型学习分数分布(而非单一分数),用KL散度损失优化,结合二阶段GRPO强化学习对齐人类偏好,Qwen-2.5VL经训练后整体评估准确率提升4.51%。
三、抖音画质大模型应用实践
核心应用场景:
智能断言:针对多媒体画面设置断言规则(如人物区域无严重果冻效应、UI纹理无损伤),辅助测试验证。
智能化评测链路:通过VIDA-Expert工具实现批量画质分析、自动报告产出,提升主观评估效率与置信度。
赛事参与:在ICCV、CVPR的MIPI Workshop等国际赛事中,开展画质评估相关挑战赛道。
模型效果提升:经ViDA-UGC微调(SFT)后,Qwen2-VL-7B、InternVL3-8B等模型在质量描述的完整性、精确性上显著提升,VIDA-UGC-Bench整体得分最高达5.87。
四、未来展望
一体化大模型:构建“感知-修复”一体化模型,可自动识别画质退化类别、严重程度与区域,同时针对不同退化类型/区域实现精准修复,支持根据用户描述定制修复效果。
对比感知优化:当前VLM对同场景内容的区分能力不足,需提升对比评估稳定性,Qwen2.5VL经SFT+RL训练后,正逆序对比一致率从32%提升至80%,未来需进一步优化该能力。