基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法
这是一篇关于自动摘要,BERT,Seq2Seq,最大边界相关度算法,抽取式文本摘要,生成式文本摘要的论文, 主要内容为文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法
这是一篇关于自动摘要,BERT,Seq2Seq,最大边界相关度算法,抽取式文本摘要,生成式文本摘要的论文, 主要内容为文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
法律文书自动摘要系统的设计与实现
这是一篇关于智慧司法,自动摘要,Bi-LSTM,Transformer,自然语言处理的论文, 主要内容为在司法领域,法律案件通常类型多样,其对应的法律文书内容往往比较充实并且细节繁多,对于法律从业人员或非从业人员来说,在阅读过程中往往要消耗大量时间和精力。针对上述情况,本文以智慧司法项目为背景,分析了自动摘要技术的国内外发展现状与法律领域的应用现状,以法律文书自动摘要为主题,采取自动摘要任务中主流方法:生成式摘要和抽取式摘要方法进行研究。本文主要开展工作如下:(1)法律文书生成式摘要模型设计与实现,采用生成式摘要方法建模,基于CAIL2020司法摘要赛道文书数据集,以Transformer融合指针生成网络为基础模型结构,并在模型训练过程中融入高频词汇进行辅助训练。最终采取ROUGE评分机制进行评测,验证了本文所采用改进方法的有效性。(2)法律文书抽取式摘要模型设计与实现。通过利用数据集的句子标签,将自动摘要任务转换为句子分类任务和高分句重组两个部分。通过在Bi-LSTM模型结构基础上融入注意力机制构建关键句分类模型,在预测得到高分句标签后,通过选取高分句进行重组的方式实现自动摘要。最终采取ROUGE评分机制进行评测,验证了本文所采用改进方法的有效性。(3)分析了在司法摘要这一应用领域模型的表现和适用情况。同时在上述模型的基础之上,选取融合了注意力机制的抽取式摘要模型作为主要模型,设计并构建了面向法律文书的自动摘要系统,提供了用户注册登录接口,系统具备自动摘要、数据管理、用户管理等基本功能。面向法律文书的自动摘要系统的设计与实现,不仅是解决司法领域案件内容信息冗余的尝试,这一应用也可以有效结合法律从业人员的工作内容,降低阅读耗时,提升从业人员和人民大众阅读文书和获取重要信息的的效率。
裁判文书自动摘要生成与推荐算法研究
这是一篇关于自动摘要,词相似度,BERT,知识图谱,句子相似度的论文, 主要内容为在法律领域,中国裁判文书网的文书数量达到近9000万,且以每日4万余篇的速度进行更新。海量裁判文书的开放,为智慧法院、律师助手、法律机器人等法律智能化应用奠定了基础。然而,裁判文书包含较多的冗余信息,为法律智能化应用模型的训练引入了许多噪声,且在搜索方面造成了信息过载。自动摘要技术能实现用简短的文本来概括表达长文本的主旨,在一定程度上减少了冗余信息,缓解了信息过载,因此,将自动摘要技术应用到裁判文书领域是极有意义的。算法为中心,包括摘要的生成和推荐两部分。在摘要生成方面,由于裁判文书属于中长文本,而现有基于深度学习的自动摘要算法几乎都是针对短文本的,对中长文本的效果并不理想,此外,标注的裁判文书摘要数据集仍未出现,影响了基于标注语料的自动摘要算法在裁判文书上的表现。而无监督抽取式摘要算法无需标注语料进行训练,在中长文本的摘要生成上有良好的效果,但未能包含足够的语义信息。基于上述原因,本文提出一个组合自动摘要算法,该算法由无监督和有监督摘要算法两部分组成。将融合SBERT句子编码和submodular函数的改进版TextRank算法TextRankPro作为无监督摘要算法,有监督摘要算法是通过BERT结合Seq2Seq来实现。经过ROUGE指标评估,TextRankPro的结果优于TextRank,同时BERT+Seq2Seq算法的ROUGE-1、ROUGE-2和ROUGE-L的值分别达到50.93,27.85,44.38的高值。且结合摘要实例分析,本文提出的两种算法生成的摘要在流畅性,相关性和冗余度上均有良好的表现。此外,本文在无监督自动摘要算法和有监督自动摘要算法的结合方式上进行了探索。以BERT+Seq2Seq算法生成的中文摘要作为原始摘要,经谷歌翻译API得到相应的英文摘要。本文根据生成摘要的特性,提出一种摘要推荐算法,该算法以词的相似度为基础,融合词性信息,以及结合句子语法解析树来计算摘要间的相似度;对中英文摘要的相似度分配不同权重,将加权相似度最高的摘要作为推荐。其中,中英文词相似度衡量方法不同,中文词相似度算法是根据Word2Vec训练的中文词向量来衡量相似度,在英文词方面,本文提出通过信息熵结合词向量和知识图谱来衡量词语间的相似度,经实验评估,该词相似度算法对词语间相似程度的判断接近于人类。
基于RoBERTa-Seq2Seq模型与改进MMR算法的中文文本摘要自动生成方法
这是一篇关于自动摘要,BERT,Seq2Seq,最大边界相关度算法,抽取式文本摘要,生成式文本摘要的论文, 主要内容为文本摘要技术是使用计算机经过各类方法对文档或者文档集中最能代表其核心思想内容的抽取和总结,从本质上来说,是一种信息压缩技术。随着信息技术的高速发展,互联网上每天都会生成大量新闻、媒体、邮件等各类形式的文本数据,文本信息过载问题严重,而文本摘要技术可以让用户在有限的时间和精力下,更加高效地获取到有用和感兴趣的信息。现有的文本摘要方法主要采用的是抽取式或者生成式,抽取式摘要容易产生冗余信息,而生成式摘要存在信息覆盖不全面、语句不通畅问题。对于文本长度超过200个字符的文章,生成式文本摘要技术有待改进。针对短文本摘要信息冗余问题,本论文采用BERT(Bidirectional Encoder Representation from Transformers,BERT)与 RoBERTa-Seq2Seq 模型来减少冗余的方式得到最终摘要;针对中长文本,本论文将文档的语言学信息与传统的MMR算法(Maximal Marginal Relevance,最大边界相关度算法)相结合来获取长文本的摘要。论文具体工作如下:(1)基于BERT与RoBERTa-Seq2Seq模型的短文本自动摘要方法针对短文本信息冗余问题,基于BERT与RoBERTa-Seq2Seq模型设计了一种文本自动摘要方法。该方法首先通过BERT预训练模型获取词向量,再通过余弦相似度计算,选择出可以作为文本摘要的句子,最后将被选择的句子经过RoBERTa-Seq2Seq模型微调,去除一些重复文字,得到文本摘要。将该方法在LCSTS(ALarge Scale Chinese Short Text Summarization Dataset,LCSTS)数据集上进行实验,与 LDA 结合D2V方法相比,其获得的摘要准确率在ROUGE-1和ROUGE-L上面分别提升了 6%和13.71%,有效减少了生成摘要中的冗余信息,验证了该方法的有效性。(2)基于改进最大边界相关度算法的长文本摘要方法针对长文本,设计了基于改进最大边界相关度算法的长文本摘要方法。该方法将最大边界相关度算法与文本语义特征相结合。首先通过语义特征判断句子所在段落位置进行评分,再计算句子和其所在段落、句子与其所在文本的相似度得分以及句子中关键词和段落中关键词、文本中的关键词统计比较得分,然后在求得最大边界相关度算法计算的句子得分,将所有得分累计,得到一个综合得分。比较所有句子的综合得分,选择得分最高的当作本段的摘要。按照段落出现的顺序组合所有段的摘要,最后得到整个文本的摘要。随机抽取100篇长文本思政案例,由专家编写每篇案例的标准,将该方法与其他算法的摘要结果在ROUGE评分系统中对比。本文改进算法比基于传统最大边界相关度的抽取式摘要在ROUGE-1,ROUGE-2,ROUGE-L上分别高出0.93%、1.21%、2.67%,得到的摘要与专家摘要更加接近,从而验证了该算法的有效性。(3)文本摘要系统的实现采用Django和Vue技术,以本文提出的两种文本摘要算法为核心,实现了中文自动摘要系统。本文文本摘要系统主要功能包括:原文本的输入、文本预览、摘要生成、摘要保存。用户通过访问网页的方式进入系统,将原文档输入系统后,即可获取算法生成的摘要。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://bishedaima.com/lunwen/48000.html