Indexed by:
Abstract:
本发明公开了一种基于视觉语言多模态融合的人机交互意图理解方法,该方法首先在语义层上实现将人的指令语言转换为机器人可理解的文本形式的任务向量。采用融语音识别与自然语言处理NLP一体的实时交互语义解析模型提取意图理解关键信息。在语义层,机器人从人的指令语言中提取的交互意图理解关键信息。操作层接收文本形式的关键信息,并将关键信息中名词文本与视觉检测模型的物品类别名称相匹配,获取关键信息中物品的位置信息。本发明所提出的基于视觉语言多模态融合的模型可将人的语言指令转化为机器人可理解的、操作层的操作向量,模型简洁、高效,具有较强的实用性;尤其是对小物体或复杂交互场景中物品的检测。
Keyword:
Reprint Author's Address:
Email:
Patent Info :
Type: 发明申请
Patent No.: CN202410003699.0
Filing Date: 2024-01-02
Publication Date: 2024-03-19
Pub. No.: CN117725554A
Applicants: 北京工业大学
Legal Status: 实质审查
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: