Indexed by:
Abstract:
歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种"规则+例外"的实用消歧策略.对1亿字<人民日报>语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%.
Keyword:
Reprint Author's Address:
Email:
Source :
计算机研究与发展
ISSN: 1000-1239
Year: 2006
Issue: 6
Volume: 43
Page: 1122-1128
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: 67
Chinese Cited Count:
30 Days PV: 9
Affiliated Colleges: