近日,以计算机与人工智能学院2021级硕士生孟凡安为第一作者、崔超然教授为通讯作者的论文“Black-box Test-Time Prompt Tuning for Vision-Language Models”被第39届国际人工智能大会(AAAI 2025)接收。AAAI会议由国际先进人工智能协会主办,是人工智能领域历史最为悠久、最具影响力的顶级学术会议之一。该会议也是中国计算机学会(CCF)推荐的A类国际学术会议,为我校A1类学术成果。这也是我校首次作为第一单位在CCF A类国际会议上发表论文。本届AAAI会议的主会共收到来自全世界各研究机构的12,957篇有效投稿,经过两阶段评审,有3,032篇论文被录用,录取率为23.4%。
论文面向测试时提示调整(Test-Time Prompt Tuning, TPT)这一问题,通过在模型推理阶段进行提示调整来提高视觉语言大模型在下游任务上的性能。当前,商业视觉语言大模型通常会被封装为一个黑盒模型,以MaaS(Model as a Service)形式对外提供服务,用户仅能通过API接口访问、使用模型。然而,这种模式使得传统的依赖梯度优化的提示调整方法无法适用,而当前的研究大多忽视了这一实际场景的挑战。本文首次解决了推理阶段提示调整的无梯度优化难题,提出了一种全新的方法——黑盒测试时提示调整(Black-box Test-Time Prompt Tuning, B2TPT)。与传统TPT方法相比,B2TPT无需依赖梯度即可调整提示。具体而言,B2TPT通过设计基于一致性和置信度的伪标签策略,筛选高质量伪标签,并采用协方差矩阵自适应进化策略(CMA-ES)这一无梯度优化算法,对低维内在提示进行优化,再将其投影至原始文本和视觉提示空间。该方法不仅解决了无梯度优化的技术难点,还显著降低了推理过程中的计算开销。实验结果显示,B2TPT在测试阶段不仅显著优于视觉语言大模型的零样本推理性能,还超越了现有基于梯度的提示调整方法,为解决黑盒场景下的模型优化问题提供了全新思路。
撰稿:孟凡安
编审:李云枝