• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

沈琦 (沈琦.) | 宋清明 (宋清明.) | 张猛 (张猛.) | 汤艳 (汤艳.)

Indexed by:

incoPat zhihuiya

Abstract:

本发明属于计算机科学与技术领域,涉及一种基于主题的Web页面清洗方法,包括:确定主题领域;采集样本页面,并对样本页面的网页结构进行分析,确定页面元素树形结构;确定抽取内容标签边界;根据标签边界定义正则表达式匹配规则,利用多个抽取规则组成抽取规则模板;对待清洗页面进行清洗预处理,剔除容易分辨的“噪音”内容;利用已生成的抽取规则模板进行页面清洗,得到清洗后的页面。本发明直接在页面中抽取有用信息,大大降低了页面清洗的复杂度和困难度。针对Web页面标签的复杂多样性和局部固定性,采用正则表达式直接匹配和抽取需要的标签,保留有用信息并自动剔除掉无用信息,可有效地实现页面清洗的目的。

Keyword:

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Related Article:

Patent Info :

Type: 发明授权

Patent No.: CN201310378986.1

Filing Date: 2013-08-27

Publication Date: 2016-08-10

Pub. No.: CN103440315B

Applicants: 北京工业大学

Legal Status: 未缴年费

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 9

Affiliated Colleges:

Online/Total:505/10573640
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.