Abstract:
视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域.得益于视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年来,基于Transformer的视觉分割技术因具备长程依赖建模能力而备受关注.随着Transformer的模型架构的持续优化与迭代,亟须更全面地理解和认识Transformer在视觉分割领域的已有进展和发展趋势,通过发现现有研究中的不足和挑战,以更深入地探索Transformer的核心理论.为此,本文从图像/视频两个视觉脉络出发,整理、回顾、分析和探讨了近年来基于Transformer的视觉分割相关技术进展,不仅归纳了Transformer的理论框架,还给出了一些应用实例和研究热点,从而做出总结和展望.具体来说,首先梳理了Transformer的背景,包括问题定义、数据集和评估指标、基本结构,其中,问题定义描述了视觉分割在图像/视频任务中的预期目标和结果;数据集和评估指标反映了模型的具体应用场景,以及性能的衡量标准;基本结构则描述了算法的核心模块、实现流程以及各个模块之间的关系.然后,着重阐述了Transformer在图像语义分割、图像实例分割,以及视频语义分割和视频实例分割四个方法体系,并探讨了当前的研究热点.对于图像语义分割任务,分析了Transformer的代表性结构,包括纯Trans-former和双分支结构,并以无人机影像非铺装道路分割和遥感图像语义分割为实际应用案例,探讨了Transformer的改进动机与应用效果,并展示了主观结果;图像实例分割总结了常见的非端对端Transformer和端对端Trans-former典型结构.视频语义分割主要分为面向精度的和面向效率的Transformer结构,视频实例分割则包括逐帧和逐片段Transformer分割,并以网络直播视频实例分割为应用实例,一方面讨论了可用的数据集、实验参数和评估指标,另一方面,对网络直播视频实例分割主流方法性能进行了评价和分析,展示了一些主观可视化结果.之后,鉴于视觉分割领域的SAM大模型、开放词汇分割、指代分割受到了广泛关注,本文将这些热点问题方法进行了追溯和评述,以期碰撞出视觉分割的新思路和新灵感.最后,尽管基于Transformer在视觉分割技术受到了广泛的关注,但存在的科学问题也逐渐凸显,限制了模型性能与效率的进一步提升,对此本文总结了利用Trans-former开展图像/视频语义/实例分割仍需关注的难点问题,并对未来可能的发展方向进行了展望,提供了一些启示供参考.
Keyword:
Reprint Author's Address:
Email:
Source :
计算机学报
ISSN: 0254-4164
Year: 2024
Issue: 12
Volume: 47
Page: 2760-2782
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 16
Affiliated Colleges: