Query:
Refining:
Year
Type
Indexed by
Colleges
Complex
Language
Clean All
Abstract :
针对手写中文文本交错、粘连、字内过分离等问题,提出一种基于贪吃蛇算法和部首识别的文本切分方法。首先,根据贪吃蛇算法建立文本原始切分轨迹,并依据多重规则优化切分路径;之后,基于粘连字符的轮廓和骨架提取候选粘连点,利用贪吃蛇算法进行二次切分;最后,对过切分字符,进行部首的笔段提取和识别,依据汉字结构确定合并方向,并结合几何置信度和识别置信度完成合并,得到最终正确的文本切分结果。以陕西省某高中试卷中1 542行手写文本作为实验数据进行了算法验证,结果表明,该算法切分正确率可达到82.15%。
Keyword :
贪吃蛇 部首识别 手写体中文文本 过切分合并 笔段提取 粘连字符
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 付鹏斌 , 董澳静 , 杨惠荣 . 基于贪吃蛇算法和部首识别的手写文本切分 [J]. | 华南理工大学学报(自然科学版) , 2022 , 50 (01) : 80-90 . |
MLA | 付鹏斌 等. "基于贪吃蛇算法和部首识别的手写文本切分" . | 华南理工大学学报(自然科学版) 50 . 01 (2022) : 80-90 . |
APA | 付鹏斌 , 董澳静 , 杨惠荣 . 基于贪吃蛇算法和部首识别的手写文本切分 . | 华南理工大学学报(自然科学版) , 2022 , 50 (01) , 80-90 . |
Export to | NoteExpress RIS BibTex |
Abstract :
本发明公开了一种基于贪吃蛇的手写中文文本切分方法,该方法用于图像文本的切分。首先,根据文本行的垂直投影直方图和字符笔画宽度自适应计算字符间笔画薄弱位置,利用贪吃蛇算法在该区域内建立初始切分轨迹,并制定多重约束规则优化切分路径,实现手写文本的粗切分;然后,根据字符宽度和宽高比阈值筛选粘连字符,从粘连字符的轮廓曲线和骨架特征入手,选取粘连切分点,并利用贪吃蛇算法进行二次切分;最后,结合汉字的结构特征和汉字识别置信度完成过切分字符的合并,得到最终正确的文本切分结果。
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 付鹏斌 , 董澳静 , 杨惠荣 . 一种基于贪吃蛇的手写中文文本切分方法 : CN202110877660.8[P]. | 2021-08-01 . |
MLA | 付鹏斌 等. "一种基于贪吃蛇的手写中文文本切分方法" : CN202110877660.8. | 2021-08-01 . |
APA | 付鹏斌 , 董澳静 , 杨惠荣 . 一种基于贪吃蛇的手写中文文本切分方法 : CN202110877660.8. | 2021-08-01 . |
Export to | NoteExpress RIS BibTex |
Abstract :
本发明涉及一种基于BERT神经网络的中文人物关系抽取方法,用于解决非结构化的中文文本内人物关系难以抽取的技术问题,具体内容包括数据收集模块,对训练数据的获取、清洗、标注;特征获取与关系抽取模块,包括对句子上下文编码、命名实体识别、实体关系的预测;关系存储模块和应用服务模块,利用图数据库存储文本人物关系抽取出的人物实体关系图谱,基于SOA设计核心业务服务API接口,提供数据交互服务,Docker容器封装系统应用,使系统平台具有高可移植性和可扩展性,最终提供文本人物关系知识图谱功能。本发明能够有效地解决目前所面临的人物关系抽取召回率低、关系不准等问题。以达到更好的关系抽取平台服务。
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 刘登涛 , 张建 , 王谦超 . 基于BERT神经网络的中文人物关系抽取构建方法 : CN202110186063.0[P]. | 2021-02-14 . |
MLA | 刘登涛 等. "基于BERT神经网络的中文人物关系抽取构建方法" : CN202110186063.0. | 2021-02-14 . |
APA | 刘登涛 , 张建 , 王谦超 . 基于BERT神经网络的中文人物关系抽取构建方法 : CN202110186063.0. | 2021-02-14 . |
Export to | NoteExpress RIS BibTex |
Abstract :
在研究法律文书书写错误的语言表述特征后,将法律文书中的文本错误分为叙事陈述时的直接错误和行文书写时的隐含错误,并构建一组正则匹配规则和字词识别规则来进行错字错词识别。通过对法律文书语言学特征的研究,提出一种规则与概率统计相结合的方法实现对法律文书的文本校对。实验结果显示,该方法的召回率和准确率均达到80%,具有较好的使用前景。
Keyword :
正则匹配 纠错模型 法律文书 文本校对
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 刘明洁 , 梁毅 , 艾中良 et al. 面向法律文书的中文文本校对方法研究 [J]. | 计算机工程与应用 , 2020 , 56 (24) : 274-278 . |
MLA | 刘明洁 et al. "面向法律文书的中文文本校对方法研究" . | 计算机工程与应用 56 . 24 (2020) : 274-278 . |
APA | 刘明洁 , 梁毅 , 艾中良 , 贾高峰 . 面向法律文书的中文文本校对方法研究 . | 计算机工程与应用 , 2020 , 56 (24) , 274-278 . |
Export to | NoteExpress RIS BibTex |
Abstract :
本发明公开了一种改进中文自动文本摘要自注意力计算的方法,本方法将中文自动文本摘要attention机制运用在中文文本摘要时计算的复杂度。首先对数据集划分为训练集与测试集。可用的摘要不仅需要保证生成的摘要是语言通顺的,还需要保证摘要表达的意思是文章的主要内容,且摘要表达了一个完整的语义。本发明除了关注改进attention的计算复杂度的同时,让其能够更好的运用在中文文本摘要领域方向。在原attention计算矩阵的时间复杂度为O(n2)的基础上,将时间复杂度降低至O(n),同时该方法通用型也较强,能够运用在多种任务,不限于中文文本摘要。
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 刘博 , 徐宽 . 一种改进中文自动文本摘要自注意力计算的方法 : CN202011226337.6[P]. | 2020-11-06 . |
MLA | 刘博 et al. "一种改进中文自动文本摘要自注意力计算的方法" : CN202011226337.6. | 2020-11-06 . |
APA | 刘博 , 徐宽 . 一种改进中文自动文本摘要自注意力计算的方法 : CN202011226337.6. | 2020-11-06 . |
Export to | NoteExpress RIS BibTex |
Abstract :
汉语中有1000多个多音字,正确的判断多音字并进行注音,是计算机拼音合成的难点之一.为了实现对多音字的自动识别标注,采用最大向前匹配、最大向后匹配法对词句进行分词处理.再构建条件概率表,对多音字进行整理归类.最后系统的进行注音.通过《中文拼音词典》模块、文本分词模块、《汉字条件概率表》模块、《汉字条件概率表》计算模块、自动产生文本拼音模块构成拼音自动生产系统.
Keyword :
中文文本 自动生产系统设计 汉语拼音
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 侯雨铃 . 中文文本汉语拼音自动产生系统设计方案 [J]. | 软件 , 2019 , 40 (9) : 144-147 . |
MLA | 侯雨铃 . "中文文本汉语拼音自动产生系统设计方案" . | 软件 40 . 9 (2019) : 144-147 . |
APA | 侯雨铃 . 中文文本汉语拼音自动产生系统设计方案 . | 软件 , 2019 , 40 (9) , 144-147 . |
Export to | NoteExpress RIS BibTex |
Abstract :
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia,CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验.首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类.试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words,BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency,TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%.
Keyword :
短文本 维基百科 词模型 中文文本分类 word2vec
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 高明霞 , 李经纬 . 基于word2vec词模型的中文短文本分类方法 [J]. | 山东大学学报(工学版) , 2019 , 49 (2) : 34-41 . |
MLA | 高明霞 et al. "基于word2vec词模型的中文短文本分类方法" . | 山东大学学报(工学版) 49 . 2 (2019) : 34-41 . |
APA | 高明霞 , 李经纬 . 基于word2vec词模型的中文短文本分类方法 . | 山东大学学报(工学版) , 2019 , 49 (2) , 34-41 . |
Export to | NoteExpress RIS BibTex |
Abstract :
本发明公开了一种基于中文文本的水务领域知识图谱构建方法,包括在网上爬取大量水务文本,利用jieba分词进行中文文本分词,利用stopwords去词表去除分词后文本的停用词,利用TF‑IDF方法获取每个概念词的权重,设置一个阈值,保留大于阈值的概念词组成水务概念词库。然后根据与CN‑Dbprdia接口连接,获取水务概念词的上级概念,建立结构化水务知识图谱。接着水务结构化知识图谱挂接水务结构化数据库表以及水务文本,完成最终的水务知识图谱的构建。最后运用评估方法对挂接方法进行评估。本发明通过结合不同知识图谱构建方法,充分考虑了知识图谱之间的多种类型数据进行融合,能够提高水务知识图谱构建的效率,提高水务知识图谱的完整性以及准确性。
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 吕田田 , 闫健卓 . 一种基于中文文本的水务领域知识图谱构建方法 : CN201810665703.4[P]. | 2018-06-26 . |
MLA | 吕田田 et al. "一种基于中文文本的水务领域知识图谱构建方法" : CN201810665703.4. | 2018-06-26 . |
APA | 吕田田 , 闫健卓 . 一种基于中文文本的水务领域知识图谱构建方法 : CN201810665703.4. | 2018-06-26 . |
Export to | NoteExpress RIS BibTex |
Abstract :
本发明公开了基于多隐层极限学习机的中文文本分类方法,将正则化极限学习机模型应用到中文文本分类问题中,使用多隐层极限学习机模型对文本进行分类。使用复旦大学中文语料库作为文本分类的训练集和测试集;对文本数据进行预处理等操作,包括:统一编码方式、切词和去除停用词、符号、数字等;使用空间向量模型对文本进行表示,将数据集转换成文本矩阵;使用多隐层极限学习机对文本进行分类,其中包括文本降维、特征映射和文本分类。文本降维:将高维文本数据转换成可以进行计算的低维文本数据。使用多隐层极限学习机的多隐层结果对文本的特征进行映射,进行高层特征表示。使用多隐层极限学习机中的正则化极限学习机对文本进行分类。
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 庞皓明 , 冀俊忠 . 基于多隐层极限学习机的中文文本分类方法 : CN201710665695.9[P]. | 2017-08-07 . |
MLA | 庞皓明 et al. "基于多隐层极限学习机的中文文本分类方法" : CN201710665695.9. | 2017-08-07 . |
APA | 庞皓明 , 冀俊忠 . 基于多隐层极限学习机的中文文本分类方法 : CN201710665695.9. | 2017-08-07 . |
Export to | NoteExpress RIS BibTex |
Abstract :
研究全过程动西自动生成系统中的自然语言处理模块,设计一种面向手机中文短信的信息抽取系统.根据中文语言处理的特殊性,抽取短信中可动画化的信息,并进行否定判断和否定内容识别.实验结果表明,该系统的召回率和准确率较高,可满足动西自动生成系统对信息抽取强度的要求.
Keyword :
自然语言理解 否定判断 模板 动画自动生成 信息抽取
Cite:
Copy from the list or Export to your reference management。
GB/T 7714 | 孙容容 , 刘椿年 . 全过程动画自动生成中的中文文本处理 [J]. | 计算机工程 , 2012 , 38 (1) : 185-187,191 . |
MLA | 孙容容 et al. "全过程动画自动生成中的中文文本处理" . | 计算机工程 38 . 1 (2012) : 185-187,191 . |
APA | 孙容容 , 刘椿年 . 全过程动画自动生成中的中文文本处理 . | 计算机工程 , 2012 , 38 (1) , 185-187,191 . |
Export to | NoteExpress RIS BibTex |
Export
Results: |
Selected to |
Format: |