• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

郭晓 (郭晓.) | 蒋宗礼 (蒋宗礼.) (Scholars:蒋宗礼)

Indexed by:

CQVIP

Abstract:

提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法.考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果.考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果.经过实验证明这一方法提高了分类结果的F1值.

Keyword:

向量空间模型 HTML结构 中文文本分类 链接关系

Author Community:

  • [ 1 ] [郭晓]北京工业大学
  • [ 2 ] [蒋宗礼]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

现代电子技术

ISSN: 1004-373X

Year: 2010

Issue: 22

Volume: 33

Page: 54-56,63

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: 3

Chinese Cited Count:

30 Days PV: 10

Online/Total:538/10595523
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.