Indexed by:
Abstract:
本发明公开了一种基于改进的Single‑pass聚类算法的微博话题检测方法,包括:微博文本内容采集,文本预处理,基于LDA建立文本向量模型,基于改进的Single‑pass聚类算法进行文本聚类,结果评测;改进的Single‑pass聚类算法包括增加时间参数、对类别数据计算聚类中心点和批量输入数据。本发明通过增加时间参数,保证话题的同一性;通过对类别数据计算聚类中心点,新数据与聚类中心点进行比较,这样有助于减少新数据与每条数据比较的次数,提高了计算的效率;通过对数据批量输入,即对数据先进行聚类然后再输入,新输入的聚类中心点和已聚类好的中心点进行比较,提高了运算效率,节省了运算空间。
Keyword:
Reprint Author's Address:
Email:
Patent Info :
Type: 发明申请
Patent No.: CN201711223603.8
Filing Date: 2017-11-29
Publication Date: 2018-03-23
Pub. No.: CN107832467A
Applicants: 北京工业大学
Legal Status: 驳回
Cited Count:
WoS CC Cited Count: 59
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 7
Affiliated Colleges: