一种基于文本和图像的多模态目标检测方法 - Details

Author：

员娇娇 (员娇娇.) | 胡永利 (胡永利.) | 尹宝才 (尹宝才.)

Abstract：

近年来，网络上涌现了大量的多模态数据（图像、文本、视频、音频等），由于不同模态的数据之间具有互补性，因此，利用不同模态的数据进行分类、检测、分割等任务已成为计算机视觉领域的研究热点。目标检测作为其中的一个重要方向，得到了越来越深入的研究。在传统的目标检测算法中，研究者们仅利用图像这一单模态的数据来实现对目标的分类和定位，这种做法没有考虑文本对目标检测算法性能的影响。本文重点研究基于文本和图像的多模态目标检测算法，首先利用传统的Faster　RCNN算法提取图像中的候选目标的特征，同时利用Bi-GRU算法提取文本的特征；其次，设计了一种有效的协同注意力模型来促进文本和图像这两种不同模态数据之间的融合。在大型的目标检测数据集MSCOCO上的实验结果表明，本文方法的检测精度高于仅利用图像信息的目标检测算法的精度，充分证明了本文方法的有效性。

Keyword：

目标检测多模态深度学习

Author Community：

[ 1 ] 北京工业大学信息学部

Reprint Author's Address：

Email：

Show more details

Related Keywords：

挑战性环境下基于双尺度CBAM的毫米波雷达与视觉特征融合目标检测
2025，北京工业大学学报
基于深度学习的小目标检测方法综述
2021，员娇娇
基于深度学习的小目标检测方法综述
2021，北京工业大学学报
基于深度学习目标检测与跟踪技术的研究
2019，电子设计工程

Source ：

中国传媒大学学报(自然科学版)

Year： 2023

Issue： 03

Volume： 30

Page： 41-49

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 9

Affiliated Colleges：

信息科学技术学院本学院/部未明确归属的数据

Get Fulltext

Library Discovery Baidu Scholar Search CNKI CNKI CNKI

Type
Departments

All Years Choose Year From to