德温特专利信息清洗与标注模型研究* - Details

Author：

翟东升 (翟东升.) (Scholars：翟东升) | 李倩 (李倩.) | 张杰 (张杰.) | 黄鲁成 (黄鲁成.) (Scholars：黄鲁成) | 赵京 (赵京.) (Scholars：赵京)

Indexed by：

CQVIP PKU CSSCI

Abstract：

专利数据集的质量和处理效率是进行专利分析和知识发现的基础，以构造高质量专利数据集的处理模型为目的，以SQL　Server　BI为研究平台，设计并实现了德温特专利数据库(　DII)信息清洗标注模型。以文本形式的专利信息为数据源，在对各字段内容进行分别抽取的基础上，综合运用表达式清洗策略、循环清洗策略和基于正则表达式的脚本清洗策略对各字段进行清洗转换，结合SQL语言将关系数据转变为XML语义数据。实验证明，模型可以有效而较为准确地完成对大规模DII专利信息的清洗、存储与标注。

Keyword：

德温特专利数据库( DII) 抽取策略数据清洗专利信息

Author Community：

[ 1 ] [翟东升]北京工业大学
[ 2 ] [李倩]北京工业大学
[ 3 ] [张杰]北京工业大学
[ 4 ] [黄鲁成]北京工业大学
[ 5 ] [赵京]北京工业大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

情报杂志

ISSN： 1002-1965

Year： 2013

Issue： 8

Page： 150-154,203

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： 10

Chinese Cited Count：

30 Days PV： 9

Affiliated Colleges：

材料科学与工程学院本学院/部未明确归属的数据

经济与管理学院本学院/部未明确归属的数据

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to