• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

翟东升 (翟东升.) (Scholars:翟东升) | 李倩 (李倩.) | 张杰 (张杰.) | 黄鲁成 (黄鲁成.) (Scholars:黄鲁成) | 赵京 (赵京.) (Scholars:赵京)

Indexed by:

CQVIP PKU CSSCI

Abstract:

专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型为目的,以SQL Server BI为研究平台,设计并实现了德温特专利数据库( DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段内容进行分别抽取的基础上,综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换,结合SQL语言将关系数据转变为XML语义数据。实验证明,模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。

Keyword:

德温特专利数据库( DII) 抽取策略 数据清洗 专利信息

Author Community:

  • [ 1 ] [翟东升]北京工业大学
  • [ 2 ] [李倩]北京工业大学
  • [ 3 ] [张杰]北京工业大学
  • [ 4 ] [黄鲁成]北京工业大学
  • [ 5 ] [赵京]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

情报杂志

ISSN: 1002-1965

Year: 2013

Issue: 8

Page: 150-154,203

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: 10

Chinese Cited Count:

30 Days PV: 9

Online/Total:1504/10546016
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.