Indexed by:
Abstract:
本发明公开了一种基于平衡损失函数的长尾分布投诉举报文本分类方法,具体包括以下步骤:首先对数据进行数据清洗、去停用词等操作,为后续文本分类过程减少干扰项;然后通过BERT预训练模型进行预训练和特征提取,获得与类别信息最相关的特征向量;最后通过全连接层分类器获取分类结果。同时,本发明在经典损失函数的基础上进行优化,提出一种Gumbel分布平衡损失函数,一方面采用Gumbel激活函数替代一般激活函数,为头部类和尾部类赋予不同的梯度;另一方面引入正则化项,抑制尾部类的过拟合,提高其泛化性。本发明显著提高尾部类的分类效果,从而使整体的分类性能有所提升,能够有效解决投诉举报文本分类任务中的长尾分布问题。
Keyword:
Reprint Author's Address:
Email:
Patent Info :
Type: 发明申请
Patent No.: CN202410094505.2
Filing Date: 2024-01-23
Publication Date: 2024-05-24
Pub. No.: CN118069836A
Applicants: 北京工业大学
Legal Status: 实质审查
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 0
Affiliated Colleges: