在线学AI

【刘笑宏】多模态图像生成与质量评价
收藏

【刘笑宏】多模态图像生成与质量评价

价格
0.00
收藏:0
简要介绍
编号 QEcon20250912sh.011 类型 顶会
顶会名称 QEcon 日期 2025年9月12日~13日
地域 上海

一、图像生成基础模型

Lumina-Image 2.0(扩散模型):采用单流/双流因果块设计,支持多分辨率、多领域、多语言生成,整合OCR与统一字幕生成器,在艺术多样性、逻辑推理、多图像统一生成(如文本艺术、龙设计流程)上表现出色,发表于ICCV 2025。

Lumina-mGPT 2.0(自回归模型):基于“All In One”架构,统一文本与图像tokenization,支持文生图、图像对生成、可控生成等多任务;采用光栅扫描训练策略与“思考-验证”采样策略,能精准生成含位置关系(如“热狗在行李箱左侧”)的图像,提交至TPAMI。

二、图像生成可控编辑

多物体图像编辑(MoEdit):针对现有方法的特征混叠与数量不一致问题,提出物体特征补偿模块与数量注意力模块,在Diffusion Unet第四层加入控制,有效解决“三只兔子两只狐狸”“熊”等多物体编辑的数量准确性,发表于CVPR 2025。

层次化视频生成(LayerT2V):解决多物体视频生成的语义混合/缺失、轨迹控制/遮挡问题,采用“背景→前景1→前景2”分层生成策略,保证多物体(如马与斑马)运动轨迹和谐,支持迭代生成(猫、鹰、机器人等), arXiv 2025收录。

美学二维码生成

Text2QR(CVPR 2024):通过“消息→引导图→蓝图→生成图”三阶段流程,结合直方图极化、模块重组等技术,平衡美学定制与可扫性,采用三类损失函数(二维码损失、标识符损失、和谐度损失)保障扫描 robustness。

Face2QR(NeurIPS 2024):解决人脸与二维码融合难题,通过ID-aware重构与ID-preserved增强,在不同姿态人脸下保持高可扫性(3-7cm尺寸、45°-90°角度下成功率超94%)与人脸保真度,Aesbench美学得分达90.1。

低光图像增强(GPP-LLIE,AAAI 2025):利用多模态大模型提取全局/局部感知先验(可见性、对比度等),设计感知先验引导的Transformer网络,在LOL、LOL-v2等数据集上,FID(36.73)、LPIPS(0.081)等指标优于现有SOTA,避免亮区过曝与暗区欠曝。

三、生成图像质量评价

A-bench(ICLR 2025):构建多维度基准测试,评估多模态大模型的高层语义理解(基础识别、特殊知识、复杂语义)与低层质量感知(技术失真、美学、生成失真)能力。测试显示,人类最佳准确率93.11%,而Gemini 1.5 Pro(76.74%)、GPT-4o(75.93%)等模型与人类感知差距显著,对不同失真维度鲁棒性不足。

Q-Eval-100K(CVPR 2025 Oral):构建目前最大的MOS评分标注数据集(10万生成内容、96万人类标注),覆盖主流文生图/视频模型;提出Q-Eval-Score评价模型,支持视觉质量与图文一致性定量评价,在图像质量评估中SRCC达0.732、PLCC 0.731,图文对齐评估中SRCC 0.822、PLCC 0.802,优于CLIPScore、BLIP2Score等方法。

产业落地:上线AGI-Eval评测网站,发布行业榜单,支持网页端+移动端协同,助力生成模型迭代与标注数据生产,提供人机比赛、评测集社区等功能。

四、核心总结与展望

技术突破:在生成模型上,实现扩散与自回归范式的高效统一;在可控编辑上,解决多物体数量/轨迹、二维码美学与低光增强等场景痛点;在质量评价上,填补大规模评测数据集空白,量化模型与人类感知差距。

未来方向:推动多模态大模型在质量评价中的深度应用,探索“评价-反馈-优化”闭环,实现大模型自我指涉、自我演进,助力AIGC技术从“外驱学习”向“内驱思考”升级。



购买后查看全部内容