新IT卓越大讲堂 No.94期
时间:2026年3月7日(周六)14:00
地点:燕山校区1号楼1406
主办:计算机与人工智能学院、山东省数字经济轻量智算与可视化重点实验室
报告题目:开放世界的多模态大模型研究与应用
报告人:徐常胜
报告摘要:与视觉和语言大模型相比,多模态大模型能够从不同模态数据中学习共性知识,因此具有更强的通用性,也更接近人类的认知能力,是目前人工智能进一步发展的关键所在。尽管目前的多模态大模型已取得了重要进展,在跨模态检索、跨模态生成等任务中取得了优异的性能,但在实际应用中面临的开放世界,已有多模态大模型仍然存在很多尚未解决的挑战。本报告主要探讨解决两个方面的问题:(1)如何在保留不同模态数据本身特性的前提下建模多模态数据关联;(2)如何在保证模型泛化性的前提下实现多模态大模型在下游任务中的跨域迁移和小样本迁移。报告分析了多模态大模型中理想的视觉系统所应具备的要素并提出了基于解耦视觉系统的多模态大模型Libra;同时也介绍了针对多模态大模型的多个泛化性保持的跨域和小样本迁移方法。
报告专家:徐常胜,中国科学院自动化研究所研究员,国家杰出青年基金获得者、国家万人计划领军人才、国家百千万人才工程入选者、首都科技创新领军人才、科技部重点领域创新团队负责人,IEEE/IAPR/CCF/CSIG Fellow和ACM杰出科学家。担任ACM多媒体专委会中国区(ACM SIGMM China Chapter)主席。发表IEEE/ACM会刊论文200余篇,CCF-A类会议论文150余篇,在多媒体领域国际顶级会议和期刊上获得最佳论文奖10余次,以第一完成人获中国电子学会自然科学一等奖和技术发明一等奖、吴文俊人工智能技术发明一等奖,7次获得中国科学院优秀导师奖。