多尺度模态感知在文本指代实例分割中的研究与应用 - Details

Author：

刘静 (刘静.) | 胡永利 (胡永利.) | 刘秀平 (刘秀平.) | 谭红臣 (谭红臣.) | 尹宝才 (尹宝才.)

Abstract：

文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题.当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息.然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割.对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现.由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS).实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg　3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现.

Keyword：

异模态融合与感知文本指代实例分割视觉与语言特征金字塔

Author Community：

[ 1 ] [刘静]北京工业大学
[ 2 ] [尹宝才]北京工业大学
[ 3 ] [胡永利]北京工业大学
[ 4 ] [谭红臣]北京工业大学
[ 5 ] [刘秀平]大连理工大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

图学学报

ISSN： 2095-302X

Year： 2022

Issue： 6

Volume： 43

Page： 1150-1158

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 20

Affiliated Colleges：

学院待认领

Get Fulltext

Library Discovery Baidu Scholar Search WF WF WF WF WF WF WF WF

Type
Departments

All Years Choose Year From to