6个研究背景和意义示例,教你写计算机新闻文本论文

今天分享的是关于新闻文本的6篇计算机毕业论文范文, 如果你的论文涉及到新闻文本等主题,本文能够帮助到你 文档级金融新闻事件抽取框架的研究与实现 这是一篇关于事件抽取

今天分享的是关于新闻文本的6篇计算机毕业论文范文, 如果你的论文涉及到新闻文本等主题,本文能够帮助到你

文档级金融新闻事件抽取框架的研究与实现

这是一篇关于事件抽取,众包,数据标注,新闻文本的论文, 主要内容为事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,为后续的事件抽取任务提供了准确度更高的数据,提升了训练模型的准确度。本文主要工作内容如下:1.为新闻文本的事件抽取难点提供解决方案。本文针对新闻文本与公告文本的不同举例进行了对比,分析新闻文本存在的特点,并针对其特点给出相应的解决方案。在此基础上根据事件抽取任务需求,对比选择出最适合该任务的深度学习模型,再使用新闻数据集测试该模型是否适用于处理新闻文本数据。2.构建了事件信息众包(crowd-sourcing)标注平台。该标注平台以人工标注的形式生成标注数据,同时为了解决人工标注的误差问题,本论文采用了众包中的质量控制方法以获取准确度更高的标注结果,为实现质量控制方法采取了一系列的措施,最后通过众包结果的聚合算法完成真实标签的选择。输出的数据*事件抽取模块监督学习的训练数据。3.实现了完整的事件抽取框架。框架的整个流程从数据收集开始,数据收集模块采用scrapy爬虫框架实现爬取脚本,以此获得互联网上的非结构化文本数据。使用Java和freemarker作为标注平台的前后端语言,结合Springboot框架进行众包标注平台的开发。最后选择了深度学习模型作为事件抽取方法。在框架的实现阶段使用标注平台生成的新闻文本数据进行训练,使用训练过程得到的模型文件进行事件的预测,至此实现完整的事件抽取流程。

基于BiLSTM-CRF模型的中文命名实体识别算法研究

这是一篇关于中文命名实体识别,新闻文本,BiLSTM-CRF,加权投票,软件实现的论文, 主要内容为近几年来,深度学习在计算机视觉、语音识别等领域取得了巨大成功,此外在自然语言处理(Natural Language Processing,NLP)领域也取得了不少进展。在对NLP领域中关键的基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。在如今的信息科技时代,每天产生的海量文本信息出现在人们面前,NER作为一项能够从非结构化文本数据中识别出关键有效信息,比如人名、地名、组织机构名及其他专名等命名实体的任务恰恰满足了人们迅速抓取文本中重要信息的需求。NER是关系抽取、知识图谱、智能查询、问答系统、军事指挥决策、辅助推理等众多应用领域的重要基础工具,对NER的有效研究,会为众多领域的应用打好坚实的基础,有利于这些领域的后续研究开展。本文使用深度学习方法,以双向长短期记忆网络(Long-Short Term Memory,LSTM)模型为基准模型,构建一个双向长短期记忆网络-条件随机场(Bidirectional Long-Short Term Memory-Conditional Random Field,Bi LSTM-CRF)中文NER算法模型,以人名、地名、组织机构名和其他专名作为NER的识别目标,同时将本文提出的NER模型利用算法进行模型集成,最后将NER模型成功应用在实践中。本文的工作为以下三点。(1)爬取《人民日报》2020年2月份的新闻文本数据,对爬取的非结构化新闻文本进行分词、词性标注、去停用词和字标注后作为实验数据集。提出Bi LSTM-CRF中文命名实体识别模型,与基准模型Bi LSTM相比,CRF层可以加入一些特征约束来保证Bi LSTM层的预测结果有效。通过实验证明,新闻数据集在Bi LSTM-CRF模型上的F1值比基准模型提升7.03%,得到最佳识别结果,即NER效果最优。(2)提出基于加权投票的多模型融合方法(Multi-Model Fusion of Weighted Voting,MMFWV),设计权重投票算法计算基模型的权重值,结合多个NER方法的优点。本文加权投票的基模型分别为CRF,Bi LSTM,Bi LSTM-CRF,同时实验证明MMFWV方法比基于多数投票的多模型融合方法(Multi-Model Fusion of Majority Voting,MMFMV)的F1值提升6.25%,实体识别效果更佳。(3)为了使中文NER技术更贴近人们生活,同时为人们节省大量时间,为社会创造更多维的价值和应用,本文将前面提出的NER模型在软件中全部进行界面可视化展示。通过整体设计、代码编写、缜密测试搭建出中文NER软件。该软件采用浏览器和服务器结构(Browser/Server,B/S)架构,包括前端展示、后端实现和前后端交互,分为模型训练与测试、模型使用等模块。软件对用户输入的非结构化文本进行NER,选择NER模型中的任意一种进行实体识别,从而识别出待识别文本中的人名、地名、组织机构名和其他专名。

基于BiLSTM-CRF模型的中文命名实体识别算法研究

这是一篇关于中文命名实体识别,新闻文本,BiLSTM-CRF,加权投票,软件实现的论文, 主要内容为近几年来,深度学习在计算机视觉、语音识别等领域取得了巨大成功,此外在自然语言处理(Natural Language Processing,NLP)领域也取得了不少进展。在对NLP领域中关键的基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。在如今的信息科技时代,每天产生的海量文本信息出现在人们面前,NER作为一项能够从非结构化文本数据中识别出关键有效信息,比如人名、地名、组织机构名及其他专名等命名实体的任务恰恰满足了人们迅速抓取文本中重要信息的需求。NER是关系抽取、知识图谱、智能查询、问答系统、军事指挥决策、辅助推理等众多应用领域的重要基础工具,对NER的有效研究,会为众多领域的应用打好坚实的基础,有利于这些领域的后续研究开展。本文使用深度学习方法,以双向长短期记忆网络(Long-Short Term Memory,LSTM)模型为基准模型,构建一个双向长短期记忆网络-条件随机场(Bidirectional Long-Short Term Memory-Conditional Random Field,Bi LSTM-CRF)中文NER算法模型,以人名、地名、组织机构名和其他专名作为NER的识别目标,同时将本文提出的NER模型利用算法进行模型集成,最后将NER模型成功应用在实践中。本文的工作为以下三点。(1)爬取《人民日报》2020年2月份的新闻文本数据,对爬取的非结构化新闻文本进行分词、词性标注、去停用词和字标注后作为实验数据集。提出Bi LSTM-CRF中文命名实体识别模型,与基准模型Bi LSTM相比,CRF层可以加入一些特征约束来保证Bi LSTM层的预测结果有效。通过实验证明,新闻数据集在Bi LSTM-CRF模型上的F1值比基准模型提升7.03%,得到最佳识别结果,即NER效果最优。(2)提出基于加权投票的多模型融合方法(Multi-Model Fusion of Weighted Voting,MMFWV),设计权重投票算法计算基模型的权重值,结合多个NER方法的优点。本文加权投票的基模型分别为CRF,Bi LSTM,Bi LSTM-CRF,同时实验证明MMFWV方法比基于多数投票的多模型融合方法(Multi-Model Fusion of Majority Voting,MMFMV)的F1值提升6.25%,实体识别效果更佳。(3)为了使中文NER技术更贴近人们生活,同时为人们节省大量时间,为社会创造更多维的价值和应用,本文将前面提出的NER模型在软件中全部进行界面可视化展示。通过整体设计、代码编写、缜密测试搭建出中文NER软件。该软件采用浏览器和服务器结构(Browser/Server,B/S)架构,包括前端展示、后端实现和前后端交互,分为模型训练与测试、模型使用等模块。软件对用户输入的非结构化文本进行NER,选择NER模型中的任意一种进行实体识别,从而识别出待识别文本中的人名、地名、组织机构名和其他专名。

面向新闻内容的多视角分析和生成方法研究与应用

这是一篇关于深度学习,个性化新闻推荐,摘要生成,标题生成,新闻文本的论文, 主要内容为伴随着互联网技术的迅速发展,越来越多的人选择在互联网上浏览新闻内容。而如何快速地从海量的新闻信息中获取所需的信息,是高效地利用网络新闻媒体资源的关键。为了提高获取信息的效率,首先要考虑的是如何利用已有的资源尽可能地节省用户在查找新闻时所花费的时间;其次需要从篇幅较长的新闻内容中提取其中所包含的主要信息,使用户可以浏览到高质量的新闻摘要内容;除此之外,新闻的标题内容也至关重要,部分无良媒体盲目地寻求用户的点击率,恶意地夸大、伪造新闻标题,使得新闻媒体失去了以往的公信力,也给社会发展带来了许多不安定的因素。基于上述原因,本文利用深度学习方法从多视角对新闻文本数据进行分析与生成,即从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角进行研究,具体研究内容如下:1)提出了一种基于新闻特征分析与多视角学习的个性化新闻推荐方法,用于生成符合用户兴趣偏好的新闻列表。该方法基于多头自注意力机制构建新闻编码器和用户编码器两个核心的组件,对新闻内容中的标题、正文、类别信息进行多视角的分析提取特征。首先使用新闻编码器对候选新闻信息进行编码分析,获取新闻表示特征,然后使用用户编码器对用户浏览阅读过的新闻信息进行分析以提取用户表示特征,最后通过新闻表示特征和用户表示特征生成符合用户兴趣偏好的新闻推荐列表,达到节省用户查找所需新闻时间的目的。2)提出了一种基于预训练模型的抽取式新闻摘要生成方法,用于生成包含新闻重点的摘要内容。该方法通过利用Ro BERTa预训练模型的先验知识对文本特征进行提取,获取句子级的文本特征向量;然后句子向量经过双向长短期记忆网络层和多头自注意力层以获取文档级特征向量,最后通过分类层输出预测分数,根据预测分数组合生成摘要内容。3)提出了一种融合用户特征的个性化新闻标题生成方法,用于生成符合用户阅读兴趣且具有真实性的个性化标题,可避免媒体为了追求点击率从而对新闻标题进行过度修饰。该方法通过基于Fastformer模型构建编码器对文本向量进行编码,在指针生成网络解码器中注入在个性化新闻推荐模型中提取出的用户特征,从而对生成标题的结果进行影响,使生成的新闻标题内容符合用户的阅读兴趣。通过实验证明,本文从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角对新闻文本进行分析所提出的三个模型均取得了较好的评测结果,模型性能也优于基线模型。针对新闻推荐列表生成,经过使用AUC、MRR、NDCG等推荐系统指标在新闻推荐公开数据集上进行评测,我们的结果优于基线模型;针对新闻摘要生成,通过在CNN/Daily Mail新闻摘要公开数据集上进行评测,评测结果在ROUGE-1、ROUGE-2、ROUGE-L三个指标上均有所提升;针对新闻标题生成,采用人工撰写的测试集进行测试,模型性能优于其它端到端的生成模型。

文档级金融新闻事件抽取框架的研究与实现

这是一篇关于事件抽取,众包,数据标注,新闻文本的论文, 主要内容为事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,为后续的事件抽取任务提供了准确度更高的数据,提升了训练模型的准确度。本文主要工作内容如下:1.为新闻文本的事件抽取难点提供解决方案。本文针对新闻文本与公告文本的不同举例进行了对比,分析新闻文本存在的特点,并针对其特点给出相应的解决方案。在此基础上根据事件抽取任务需求,对比选择出最适合该任务的深度学习模型,再使用新闻数据集测试该模型是否适用于处理新闻文本数据。2.构建了事件信息众包(crowd-sourcing)标注平台。该标注平台以人工标注的形式生成标注数据,同时为了解决人工标注的误差问题,本论文采用了众包中的质量控制方法以获取准确度更高的标注结果,为实现质量控制方法采取了一系列的措施,最后通过众包结果的聚合算法完成真实标签的选择。输出的数据*事件抽取模块监督学习的训练数据。3.实现了完整的事件抽取框架。框架的整个流程从数据收集开始,数据收集模块采用scrapy爬虫框架实现爬取脚本,以此获得互联网上的非结构化文本数据。使用Java和freemarker作为标注平台的前后端语言,结合Springboot框架进行众包标注平台的开发。最后选择了深度学习模型作为事件抽取方法。在框架的实现阶段使用标注平台生成的新闻文本数据进行训练,使用训练过程得到的模型文件进行事件的预测,至此实现完整的事件抽取流程。

面向新闻内容的多视角分析和生成方法研究与应用

这是一篇关于深度学习,个性化新闻推荐,摘要生成,标题生成,新闻文本的论文, 主要内容为伴随着互联网技术的迅速发展,越来越多的人选择在互联网上浏览新闻内容。而如何快速地从海量的新闻信息中获取所需的信息,是高效地利用网络新闻媒体资源的关键。为了提高获取信息的效率,首先要考虑的是如何利用已有的资源尽可能地节省用户在查找新闻时所花费的时间;其次需要从篇幅较长的新闻内容中提取其中所包含的主要信息,使用户可以浏览到高质量的新闻摘要内容;除此之外,新闻的标题内容也至关重要,部分无良媒体盲目地寻求用户的点击率,恶意地夸大、伪造新闻标题,使得新闻媒体失去了以往的公信力,也给社会发展带来了许多不安定的因素。基于上述原因,本文利用深度学习方法从多视角对新闻文本数据进行分析与生成,即从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角进行研究,具体研究内容如下:1)提出了一种基于新闻特征分析与多视角学习的个性化新闻推荐方法,用于生成符合用户兴趣偏好的新闻列表。该方法基于多头自注意力机制构建新闻编码器和用户编码器两个核心的组件,对新闻内容中的标题、正文、类别信息进行多视角的分析提取特征。首先使用新闻编码器对候选新闻信息进行编码分析,获取新闻表示特征,然后使用用户编码器对用户浏览阅读过的新闻信息进行分析以提取用户表示特征,最后通过新闻表示特征和用户表示特征生成符合用户兴趣偏好的新闻推荐列表,达到节省用户查找所需新闻时间的目的。2)提出了一种基于预训练模型的抽取式新闻摘要生成方法,用于生成包含新闻重点的摘要内容。该方法通过利用Ro BERTa预训练模型的先验知识对文本特征进行提取,获取句子级的文本特征向量;然后句子向量经过双向长短期记忆网络层和多头自注意力层以获取文档级特征向量,最后通过分类层输出预测分数,根据预测分数组合生成摘要内容。3)提出了一种融合用户特征的个性化新闻标题生成方法,用于生成符合用户阅读兴趣且具有真实性的个性化标题,可避免媒体为了追求点击率从而对新闻标题进行过度修饰。该方法通过基于Fastformer模型构建编码器对文本向量进行编码,在指针生成网络解码器中注入在个性化新闻推荐模型中提取出的用户特征,从而对生成标题的结果进行影响,使生成的新闻标题内容符合用户的阅读兴趣。通过实验证明,本文从新闻推荐列表生成、新闻摘要生成、新闻标题生成三个视角对新闻文本进行分析所提出的三个模型均取得了较好的评测结果,模型性能也优于基线模型。针对新闻推荐列表生成,经过使用AUC、MRR、NDCG等推荐系统指标在新闻推荐公开数据集上进行评测,我们的结果优于基线模型;针对新闻摘要生成,通过在CNN/Daily Mail新闻摘要公开数据集上进行评测,评测结果在ROUGE-1、ROUGE-2、ROUGE-L三个指标上均有所提升;针对新闻标题生成,采用人工撰写的测试集进行测试,模型性能优于其它端到端的生成模型。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://bishedaima.com/lunwen/50288.html

相关推荐

发表回复

登录后才能评论