Indexed by:
Abstract:
本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。
Keyword:
Reprint Author's Address:
Email:
Patent Info :
Type: 发明申请
Patent No.: CN202410337863.1
Filing Date: 2024-03-24
Publication Date: 2024-06-18
Pub. No.: CN118212399A
Applicants: 北京工业大学
Legal Status: 实质审查
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: