• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

刘梦颖 (刘梦颖.) | 王勇 (王勇.)

Abstract:

微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一.针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics,FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation(AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法.实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估.

Keyword:

聚类 微博 频繁词集 BERT 热点话题

Author Community:

  • [ 1 ] [刘梦颖]北京工业大学
  • [ 2 ] [王勇]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

计算机与现代化

ISSN: 1006-2475

Year: 2021

Issue: 12

Page: 110-115,122

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 5

Online/Total:1423/10544855
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.