Indexed by:
Abstract:
专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库( DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。
Keyword:
Reprint Author's Address:
Email:
Source :
情报杂志
ISSN: 1002-1965
Year: 2013
Issue: 8
Page: 150-154,203
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: 10
Chinese Cited Count:
30 Days PV: 9