厦门大学多媒体可信感知与高效计算教育部重点实验室14篇论文被NeurIPS2024录用

来源：厦门大学时间：2025-02-26 08:38:50

厦门大学多媒体可信感知与高效计算教育部重点实验室NeurIPS 2024接收了14篇论文，涵盖多模态大模型、三维视觉、行人重识别、多智能体强化学习、联邦推荐、模型攻击、提示学习等多个研究方向。

Thirty-Eighth Annual Conference on Neural Information Processing Systems(NeurIPS 2024)将于2024年12月9日至15日在加拿大温哥华举行。NeurIPS是人工智能与机器学习领域的三大国际会议(NeurIPS、ICML、ICLR)之一，CCF A类会议。今年NeurIPS投稿量再创新高，共有15671篇有效投稿，接收率25.8%。代码数据陆续开源中。

被录用论文的简要介绍如下：

1.Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text

本文提出了一个鲁棒的开放世界文本到3D生成框架Director3D，旨在生成真实世界的3D场景和自适应的相机轨迹。Director3D可以像导演一样指导3D场景的生成：（1）使用一个轨迹扩散变换器作为摄影师，根据文本描述来建模相机轨迹的分布；（2）一个由高斯驱动的多视图潜变量扩散模型作为场景布置师，根据相机轨迹和文本来建模图像序列分布。这个模型是从一个2D扩散模型微调而来，可以直接生成与像素对齐的3D高斯，作为直接的3D场景表现形式，用于三维一致的去噪；（3）这些3D高斯通过一种新颖的融合了2D扩散模型先验知识的SDS++损失，作为场景细化师进一步细化得到真实的3D场景。大量的实验表明Director3D在真实世界的3D场景生成中超越之前的最先进方案，达到了SOTA的效果。相关代码已经开源。

该论文第一作者是信息学院2023级博士生李新阳，通讯作者是曹刘娟教授，由2023级硕士生赖章宇、徐霖宁博士（香港中文大学）、2023级博士生曲延松、张声传助理教授、戴勃研究科学家（上海人工智能实验室和纪荣嵘教授共同合作完成。

2.RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation

3D指向性分割（3D-RES）旨在根据自然语言描述在三维空间中分割特定实例。然而，由于对实例空间信息的建模不足，传统方法经常会遇到过分割或错误分割等问题。本文基于仅利用目标空间信息的弱监督策略，提出了规则引导的空间感知网络（RG-SAN）。这种方法使模型能够准确地学习文本中所有实体之间的空间关系，从而增强空间推理能力。RG-SAN由文本驱动的本地化模块（TLM）和规则引导的弱监督（RWS）策略组成。TLM最初定位所有文本提及的实例，并迭代细化其位置信息。RWS策略凭借仅有的目标位置监督信息，使用依存树规则来精确指导核心实例的定位。对ScanRefer基准的广泛测试表明，RG-SAN不仅建立了新的性能基准，而且在处理空间模糊性描述时，鲁棒性明显提升。

该论文的共同第一作者是人工智能研究院2024级博士吴昌鲡与信息学院人工智能系2023级硕士陈琦，通讯作者是纪荣嵘教授，由博士后研究员纪家沂、孙晓帅教授等共同合作完成。

3.ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

本文提出了一种无训练的方法，通过可学习的潜变量优化，将视觉提示注入多模态大型语言模型（MLLMs）。本文观察到，注意力机制作为MLLMs的核心模块，连接了文本提示标记和视觉标记，从而最终决定生成结果。本文的研究方法在推理过程中调整来自多层感知机（MLP）输出的视觉标记，控制注意力响应，以确保文本提示标记能够关注到指代区域中的视觉标记。本文基于能量函数优化一个可学习的潜变量，增强注意力图中引用区域的强度。这一方法使得在无需大量训练成本或模型重训练的情况下，能够实现详细的区域描述和推理。本文的研究方法为将引用能力整合进多模态大型语言模型提供了一个有前景的方向，并支持使用框、掩膜、涂鸦和点进行指代。结果表明，本文的方法展示了域外数据上的泛化能力和可解释性。

该论文第一作者是人工智能研究院2023级博士生吴明瑞，通讯作者是纪家沂博士后研究员，由孙晓帅教授、纪荣嵘教授等共同合作完成。

4.DiffusionFake: Enhancing Generalization in DeepfakeDetection via Guided Stable Diffusion

本文针对人工智能生成内容(AIGC)技术的快速发展，特别是Deepfake等换脸技术的广泛应用所带来的安全挑战，提出了一种新颖的人脸篡改检测方法。本文通过分析Deepfake图像的生成过程，发现了一个关键洞见：Deepfake图像本质上融合了源图像和目标图像的信息，而真实图像则保持一致的身份特征。基于这一洞见，论文提出了DiffusionFake框架，这是一种即插即用的方法，即通过利用预训练的Stable Diffusion模型来指导检测器学习Deepfake中固有的源和目标特征。DiffusionFake通过反转生成过程来增强现有检测器的泛化能力，无需额外的推理参数即可显著提高检测模型在未见数据集上的性能。实验结果表明，该方法在各种检测器架构上都取得了显著的跨域泛化性能提升，为应对日益复杂的人脸篡改技术提供了一种有效的解决方案。

本文第一作者是信息学院2021级博士生孙可，通讯作者是刘宏（大阪大学），由陈燊（腾讯优图）、姚太平（腾讯优图）、丁守鸿（腾讯优图）、孙晓帅教授，纪荣嵘教授等共同合作完成。

5.I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing

本文提出了一个名为I2EBench的综合基准，用于自动评估基于指令的图像编辑（IIE）模型生成的编辑图像的质量。针对目前IIE模型评估中的显著挑战，I2EBench从多个维度进行全面评估，旨在为其进一步发展提供有价值的见解。具体而言，I2EBench包含了2000多张待编辑图像，以及4000多条对应的原始和多样化指令。本文的创新点如下：第一，全面的评估维度：I2EBench包括16个评估维度，覆盖了高层次和低层次的各个方面，提供了对每个IIE模型的全面评估。第二，与人类感知对齐：为了确保基准与人类感知的一致性，本文针对每个评估维度进行了广泛的用户研究。第三，有价值的研究见解：通过分析现有IIE模型在16个维度上的优劣，本文提出了指导未来研究发展的重要见解。

本文共同第一作者是信息学院2023级博士生马祎炜和博士后研究员纪家沂，通讯作者是孙晓帅教授，由信息学院2024级硕士生叶柯、林玮煌、2022级本科生郑永涵、纪荣嵘教授共同合作完成。

6.RLE: A Unified Perspective of Data Augmentation for Cross-Spectral Re-Identification

本文旨在对跨光谱重新识别任务中的模态差异进行建模。基于朗伯体模型，本文解释了非线性跨光谱模态差异主要来自于作用于不同材料表面的差异化线性变换因子。从这个角度来看，本文为所有面向跨光谱重识别的数据增强策略提供了一个统一的视角：即通过模仿这种局部线性变换，来促进网络对这种变换鲁棒。根据变换的强弱，本文将其分为温和变换和激进变换，并针对性两种变换分别提出了温和随机线性增强(MRLE)和激进随机线性增强(RRLE)，以突破这两种变换类型的边界。温和随机线性增强旨在提供满足原始局部线性相关性的温和局部线性变换，而激进随机线性增强则寻求直接进行局部线性变换而不依赖外部信息。实验结果不仅证明了所提出的随机线性变换策略的优越性和有效性，而且证实了其作为跨光谱重新识别的通用数据增强的巨大潜力。

该论文的第一作者是信息学院人工智能系2020级博士生谭磊，通讯作者是戴平阳高级工程师，由张岩工程师、吴永坚（腾讯优图）、纪荣嵘教授等共同合作完成。

7.Mining and Transferring Feature-Geometry Coherence for Unsupervised Point Cloud Registration

该论文提出了适用于室外大场景的无监督三维点云配准方法INTEGER。该方法基于在特征空间中内点匹配和外点匹配分布的观察，改善了户外环境中现有无监督配准技术面临的伪标签质量问题，并针对室外场景中点云密度变化的挑战进行设计。在自动驾驶数据集KITTI和nuScenes上超过了现有无监督点云配准方法的性能，并展现出了强的泛化性能。

该论文第一作者是信息学院2024级硕士研究生熊恪峥，通讯作者是温程璐教授。由徐青山（南洋理工大学）、王程教授等共同合作完成。

8.The Dormant Neuron Phenomenon in Multi-Agent Reinforcement Learning Value Factorization

大模型领域的Scaling Law在多智能体强化学习领域并不适用。该论文研究了多智能体强化学习价值分解算法中的休眠神经元现象，并表明这种现象对学习过程产生了负面影响，这一现象是导致Scaling Law不适用的原因之一。论文提出的ReBorn算法将权重从过载神经元转移到休眠神经元，并提出了多智能体知识不变性质，从理论上证明这种方法可以确保在权重转移过程后不会忘记学习到的智能体知识。通过实验证明，ReBorn能够提高在各种环境下多种流行的价值分解方法的性能。

该论文第一作者是2023级硕士研究生秦豪远，第二作者是2022级硕士生马陈楠，通讯作者是沈思淇副教授。由刘新旺教授（国防科技大学）、梅松竹副研究员（国防科技大学）、王程教授等共同合作完成。

9.Federated Graph Learning for Cross-Domain Recommendation

该论文提出了联邦图学习跨域推荐算法FedGCDR，该模型能够在多源域、单一目标域的跨域推荐场景上保护用户隐私，同时缓解了由隐私技术、域异质性等导致的负迁移问题，在亚马逊数据集中16个域的跨域推荐任务上性能领先。

论文第一作者是2023级硕士研究生杨子棋，通讯作者是范晓亮高级工程师。由戚建中（墨尔本大学）、陈超超（浙江大学）、潘微科（深圳大学）、温程璐教授、王程教授等共同合作完成。

10.Cross-Modality Perturbation Synergy Attack for Person Re-identification

近年来，针对基于RGB图像的单模态行人重识别（ReID）系统的安全性问题，已有大量研究工作。然而，在实际应用中更为常见的涉及红外摄像头拍摄图像的跨模态场景的安全性却未得到充分关注。跨模态ReID的主要挑战在于有效处理不同模态之间的视觉差异。例如，红外图像通常为灰度图，而可见光图像则包含颜色信息。现有的攻击方法主要集中于可见光图像模态的特性，忽视了其他模态的特征以及不同模态之间的数据分布差异。这种忽视可能会削弱这些方法在多模态图像检索中的有效性。本研究首次探讨了跨模态ReID模型的安全性，并提出了一种专为跨模态ReID设计的通用扰动攻击。该攻击通过利用来自多模态数据的梯度优化扰动，从而破坏判别器并强化模态之间的差异。在两个广泛使用的跨模态数据集RegDB和SYSU上进行的实验结果不仅证明了本文方法的有效性，还为未来增强跨模态ReID系统的鲁棒性提供了新的见解。

该论文第一作者为2023级博士研究生龚云鹏，通讯作者为江敏教授。由钟准助理教授（诺丁汉大学）、罗志明副教授、2023级博士研究生曲延松、纪荣嵘教授共同合作完成的。

11.Ask, Attend, Attack: An Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models

尽管图像到文本模型在各种视觉语言任务中取得了显著进展，但它们仍然容易受到对抗性攻击的影响。现有的白盒攻击对图像到文本模型需要访问目标模型的架构、梯度和参数，这导致实用性较低。尽管最近提出的灰盒攻击提高了实用性，但它们在训练过程中遭受语义损失，这限制了它们目标攻击的性能。为了推进图像到文本模型的对抗性攻击，本文关注一个具有挑战性的场景：基于决策的黑盒目标攻击，攻击者只有访问最终输出文本并旨在执行目标攻击。具体来说，本文将基于决策的黑盒目标攻击制定为一个大规模优化问题。为了有效解决优化问题，提出了一个三阶段过程——Ask，Attend，Attack，称为AAA，以求解该优化问题。Ask指导攻击者创建满足特定语义的目标文本。Attend识别图像的关键区域以进行攻击，从而减少了后续Attack的搜索空间。Attack使用进化算法攻击关键区域，这些攻击在语义上与Ask的目标文本相关，从而在没有语义损失的情况下实现目标攻击。在基于Transformer和CNN+RNN的图像到文本模型上的实验结果证实了本文提出的AAA的有效性。

该论文第一作者是2022级硕士研究生曾清源，通讯作者是江敏教授。由王贞众博士研究生（香港理工大学）、张晓明教授（香港浸会大学）共同合作完成的。

12.UniDSeg: Unified Cross-Domain 3D Semantic Segmentation via Visual Foundation Models Prior

该论文探索了如何利用视觉基础模型（VFM）的先验知识来增强跨域3D语义分割。当前方法大多局限于研究单一的域泛化或域自适应策略，以解决域偏移问题。然而，这在构建缓解域偏移的通用模型方面留下了空白。因此，本文深入研究基于VFM编码器的参数高效提示微调方法，并引入一种可学习的参数启发机制，该机制不仅避免了对原始视觉空间进行不必要的操作，而且最大限度地保留了VFM对目标域数据感知的先验知识，进一步增强其泛化能力。通过在VFM编码器中分层嵌入两个轻量级模块：模态过渡性提示（MTP）和可学习空间性调整（LST），以充分学习不同层次和模态的语义理解。MTP依赖于稀疏深度的过渡性引导，在输入到编码层之前存在于提示空间中。LST依赖于向量的自定义上下文长度，存在于查询空间中，用于在编码层之后寻找匹配的提示。最后，将改进的VFM编码器集成到一个跨模态学习框架中，使2D和3D模型能够学习域不变表示，从而有效缓解多模态域偏移问题。该方法在Day/Night、USA/Singapore、vKITTI/sKITTI和A2D2/sKITTI等多个场景，和DG、DA、SFDA等多个跨域学习任务中均显著优于当前最先进的方法。

该论文第一作者是信息学院计算机科学与技术系2021级博士生吴垚，通讯作者是其导师曲延云教授和博士后张亚超（清华大学深圳研究院），由2022级硕士生邢明炜，2020级博士生罗小同，谢源教授（华东师范大学）共同合作完成。

13.Learning Commonality, Divergence and Variety for Unsupervised Visible-Infrared Person Re-identification

无监督可见光-红外行人重识别（USVI-ReID）是一项极具挑战的检索任务，其目标是在没有任何标注的情况下匹配可见光和红外模态下的行人图像。最近，聚类伪标签方法已成为 USVI-ReID 的主要方法，但是不可靠的伪标签严重影响识别精度。为了解决这一问题，本文提出了一种基于难原型和动态原型的渐进对比学习方法（PCLHD）。具体而言，本文首先提出难原型对比学习挖掘聚类中的差异性信息，以捕获更具辨识度的特征；然后，设计动态原型对比学习，以保持特征多样性，提升模型对数据分布的适应性；最后，引入渐进式学习策略，逐步将模型关注点从通用特征转移到差异性和多样性特征，以防止聚类退化。在两个基准数据集（SYSU-MM01 和RegDB）上进行的综合实验表明，PCLHD在平均mAP指标上较现有最先进的USVI-ReID方法提升了3.9%。

该论文共同第一作者是厦门大学人工智能研究院2022级博士生施江鸣和2023级硕士生尹祥博，共同通讯作者是曲延云教授和谢源教授（华东师范大学），由张亚超（清华大学深圳研究院）、张志忠（华东师范大学）等共同合作完成。

14.Relationship Prompt Learning is Enough for Open-Vocabulary Semantic Segmentation

开放词汇语义分割（OVSS)旨在对未见类提供像素级分类。现有的基于视觉语言模型(VLM)的方法利用VLM蒸馏或适配额外显示的分割网络，从而输出未见类分割结果，但依赖大量参数消耗。为此，本文尝试使VLM能够直接生成分割结果，而无需显示的分割网络。提示学习提供了一种直接且参数高效的方法。在该工作中，本文提出关系提示模块(RPM)，生成关系提示，引导VLM直接输出适合OVSS的像素级语义嵌入。此外，无需额外显示的分割网络，RPM与VLM集成以构建关系提示网络(RPN)，仅使用大约3M可训练参数（占总参数的2%）便达到了SOTA。