一、画质算法基础与GAN时代瓶颈
核心任务:画质算法涵盖图像/视频超分、去雾、去噪、夜景增强等修复任务,目标是恢复低质内容的视觉质量,字节智能创作团队支撑抖音、剪映等多业务线,年调用达百亿次,贡献XX亿元商业化收入。
GAN时代局限:前AIGC时代依赖对抗损失提升泛化能力,但存在Model Collapse(模型坍缩)问题,无法规模化扩大模型与数据集,难以拟合复杂真实纹理,效果与效率受限。
二、AIGC技术带来的机遇与突破
Diffusion模型的优势:Diffusion技术赋予大模型强大的图像生成与理解能力,可通过注入低质图像作为控制条件,平衡语义一致性与细节生成能力,大幅提升画质上限,解决传统GAN的纹理拟合难题。
学术成果突破
视频去模糊(AAAI 22):提出多尺度双向传播的深度循环神经网络,设计运动估计与补偿模块,解决模糊帧对齐精度问题,构建真实模糊数据集(用机械臂+相机采集长短曝光对比帧)。
图像超分(ICCV 25,PatchScaler):针对扩散模型推理耗时问题,提出局部自适应推理方案,通过GRM网络预测修复难度,PGS分类图像块并适配采样参数,结合Texture Prompt优化纹理重建,在保证画质(MUSIQ指标提升)的同时,推理效率显著优于StableSR等模型。
视频超分(Arxiv 25):提出含长短时传播与分叉推理加速的循环视频扩散模型,解决时序不一致问题,复用中间扩散结果,分阶段生成语义、细节、高频信息,提升视频超分的一致性与效率。
三、AIGC画质算法的落地应用
图像超清能力矩阵:构建多类型AIGC超分方案,覆盖不同场景需求
标准版AIGC超分:通过智能质量感知调节模型,优化分辨率与参数,解决开源模型过生成问题,落地醒图“AI超清”功能。
轻量版AIGC超分:基于单步推理技术,4K输出耗时(2.6s)与GAN超分(2.1s)持平,效果在高清、日常、低清组均优于GAN(GSB倍率>1.1),实现全场景画质升级。
生成型AIGC超分:以Seedream3.0为基模,训练生成式超分插件,设计超高分辨率T2I推理系统,在画质质量(3.94)、一致性(3.69)、创意感(3.59)上全面超越竞品,可用率70.06%、满意率4.54%,落地即梦APP“智能超清”。
视频超分应用:以Seedance为基模,设计单步扩散的轻量级AIGC视频超分,在11个综合场景(营销、影视等)中,清晰度、一致性、视觉美感均优于线上GAN与头部竞品Topaz。
四、AIGC画质算法的挑战与未来
现存挑战:扩散模型存在过生成现象;推理成本高(如StableSR推理耗时15.16s,远高于GAN的0.08-0.31s);视频超分需解决时序一致性问题。
未来规划:推动画质算法“全面感知化”,研发All-in-one大模型以应对未知退化类型;引入画质RLHF(强化学习人类反馈),进一步对齐用户主观偏好;优化超高分辨率推理效率,拓展更多创意生成场景。