Indexed by:
Abstract:
本发明提供一种基于高级语义信息特征编码的视频描述方法。该发明包括:通过人工智能网络预测输入视频序列中包含的多个独立事件,并输出各事件的起止时间以及相应文字描述;通过解耦地提取原生视频的空间与时序特征,摒弃传统骨干网络,保留更完整的语义信息;通过高级语义信息编码器以及特征融合模块提炼视频特征,对高级语义信息进行解码以获得视频描述特征,取得更好的描述效果;通过时间戳预测模块以及描述内容预测模块分别处理视频描述特征获得最终描述结果。本发明主要针对包含多个事件的视频,具有参数量低、精度高,方便对视频操作等特点;对于生成的描述信息,可根据应用场景实现分类、检索、辅助视听等任务。
Keyword:
Reprint Author's Address:
Email:
Patent Info :
Type: 发明申请
Patent No.: CN202310159288.6
Filing Date: 2023-02-24
Publication Date: 2023-05-09
Pub. No.: CN116091978A
Applicants: 北京工业大学
Legal Status: 实质审查
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: