Abstract:
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一.针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics,FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation(AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法.实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估.
Keyword:
Reprint Author's Address:
Email:
Source :
计算机与现代化
ISSN: 1006-2475
Year: 2021
Issue: 12
Page: 110-115,122
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 5
Affiliated Colleges: