信息学院丁丹丹副教授团队的最新研究成果被人工智能领域顶级国际会议AAAI2024(CCFA类)录用
来源:杭州师范大学 时间:2024-01-27 21:30:49
近日,我校信息科学与技术学院丁丹丹副教授团队在图像压缩研究方面取得新成果,该成果以题为“Another Way to the Top: Exploit Contextual Clustering in Learned Image Coding”被中国计算机学会(CCF)推荐的A类国际学术会议AAAI 2024录用。AAAI(AAAI Conference on Artificial Intelligence)由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一,本届AAAI会议共收到12100份提交论文(主赛道),创下历史新记录,其中仅2342篇论文被录用,录用率为23.75%。
数据压缩是一种基础工程问题,在数据存储和有限容量信道传输中有重要的应用,图像作为一种信息载体,信息占用的空间相当大,因此研究者们对图像压缩的研究从未停止过。随着近年来深度学习的发展,基于深度学习的图像压缩算法逐渐超越了传统方法,具有较大的研究价值。当前基于学习的端到端图像压缩方法大都基于卷积和自注意力机制实现变换编码,研究团队提出了一种基于上下文聚类的端到端图像压缩方法,依赖聚类操作和局部注意力来进行图像的紧致表达。所提方法将感受野扩展到整个图像以进行类内特征聚合,特征被重新排序到它们原始的空间位置,经过局部注意力单元进行类间嵌入,引入了引导式前置量化滤波技术,在解码初始阶段就对量化误差进行补偿,有效地减轻了量化误差的传播和累积。新方法具有出色的性能,当使用均方误差(MSE)进行优化时,在三个广泛使用的基准数据集上,它比H.266/VVC高出约10%的BD-Rate;当使用MS-SSIM进行优化时,相比H.266/VVC节省了50%以上的BD-Rate。
图1. 所提出的方法的整体结构图
图2. 所提出的方法(红星)与当前主流方法的性能对比,左上表示最佳
研究团队所提出的方法为图像压缩提供了一种生成紧致表示的新方法,为端到端图像压缩的发展提供了一个新的研究方向。
信息学院2019级本科生张一驰为论文第一作者,丁丹丹副教授为论文的通讯作者,杭州师范大学为第一完成单位,南京大学和普渡大学为合作单位。该成果接受国家自然科学基金面上项目、浙江省自然科学基金项目、Google CURP项目等项目资助。
作者简介:
丁丹丹,副教授,硕士生导师,主要从事计算机视觉、智能视频图像处理、智能视频编码、三维点云压缩编码与重建等方面研究,在国内外重要期刊与会议上发表相关论文50余篇,申请发明专利10余项,向国内外标准组织提交提案40项,获奖4项。曾担任ISO/IEC标准23001-1与23001-2的project leader,担任中国音视频编码标准组织AVS第13部分专题组联合组长,目前正在参与面向机器视觉编码(DCM)的标准化工作。