• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

王立春 (王立春.) | 付芳玉 (付芳玉.) | 徐凯 (徐凯.) | 徐洪波 (徐洪波.) | 尹宝才 (尹宝才.)

Abstract:

针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention,DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network,DMA-Net).该网络由目标检测、物体语义解析和关系语义解析3 个模块组成.首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention,O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention,R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签.在公开的视觉基因组(visual genome,VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3 个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较.实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度.

Keyword:

上下文融合 场景图生成 物体分类 关系分类 目标检测 双分支多头注意力(dual-stream multi-head attention DMA)

Author Community:

  • [ 1 ] [徐凯]北京工业大学信息学部,北京 100124;北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124
  • [ 2 ] [付芳玉]北京工业大学信息学部,北京 100124;北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124
  • [ 3 ] [王立春]北京工业大学信息学部,北京 100124;北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124
  • [ 4 ] [尹宝才]北京工业大学信息学部,北京 100124;北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124
  • [ 5 ] [徐洪波]北京工业大学信息学部,北京 100124;北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

北京工业大学学报

ISSN: 0254-0037

Year: 2024

Issue: 10

Volume: 50

Page: 1198-1205

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 4

Online/Total:502/10471483
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.