• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

员娇娇 (员娇娇.) | 胡永利 (胡永利.) | 尹宝才 (尹宝才.)

Abstract:

近年来,网络上涌现了大量的多模态数据(图像、文本、视频、音频等),由于不同模态的数据之间具有互补性,因此,利用不同模态的数据进行分类、检测、分割等任务已成为计算机视觉领域的研究热点。目标检测作为其中的一个重要方向,得到了越来越深入的研究。在传统的目标检测算法中,研究者们仅利用图像这一单模态的数据来实现对目标的分类和定位,这种做法没有考虑文本对目标检测算法性能的影响。本文重点研究基于文本和图像的多模态目标检测算法,首先利用传统的Faster RCNN算法提取图像中的候选目标的特征,同时利用Bi-GRU算法提取文本的特征;其次,设计了一种有效的协同注意力模型来促进文本和图像这两种不同模态数据之间的融合。在大型的目标检测数据集MSCOCO上的实验结果表明,本文方法的检测精度高于仅利用图像信息的目标检测算法的精度,充分证明了本文方法的有效性。

Keyword:

目标检测 多模态 深度学习

Author Community:

  • [ 1 ] 北京工业大学信息学部

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

中国传媒大学学报(自然科学版)

Year: 2023

Issue: 03

Volume: 30

Page: 41-49

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 9

Online/Total:396/10563728
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.