Abstract:
命名实体识别是自然语言处理的一项基本任务,对信息提取、机器翻译等具有重要的意义和价值.目前命名实体识别通常使用序列标注方法对文本中单个句子的实体进行抽取,忽略了句子间的语义信息.基于机器阅读理解的命名实体识别方法借助问题编码了实体类别的重要先验信息,更加容易区分出相似的分类标签,降低了模型学习难度,但仍然只在句子级别建模,忽略了句子间的语义信息,容易造成不同句子中实体标注不一致的问题.为此,文中将句子级别的命名实体识别扩展到文本级别的命名实体识别,提出了一种基于机器阅读理解的BiLSTM-BiDAF命名实体识别模型.首先,为了充分挖掘文本的上下文特征,使用NEZHA获取全文语境信息,并进一步通过BiLSTM提取局部特征,以加强模型对局部依赖信息的捕获能力;然后,引入双向注意力机制学习文本与实体类别之间的语义关联;最后,设计基于门控机制的边界检测器加强实体边界的相关关系,预测出实体在文本中的位置,同时通过建立答案数量检测器,将无答案问题识别出来.在CCKS2020中文电子病历数据集和CMeEE数据集上的实验结果表明,文中构建的模型能有效地识别文本中的命名实体,F1值可分别达到84.76%和57.35%.
Keyword:
Reprint Author's Address:
Email:
Source :
华南理工大学学报(自然科学版)
ISSN: 1000-565X
Year: 2022
Issue: 12
Volume: 50
Page: 80-88
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: