5个研究背景和意义示例,教你写计算机网页信息抽取论文

今天分享的是关于网页信息抽取的5篇计算机毕业论文范文, 如果你的论文涉及到网页信息抽取等主题,本文能够帮助到你

面向政务公开网站的智能化网络信息采集系统的研究与实现

这是一篇关于信息采集,爬虫系统,爬行策略,网页信息抽取的论文, 主要内容为在信息爆炸的时代,从互联网中获取与领域或主题相关的海量文本数据已成为一项必要的任务。在领域信息中,政府公告类信息是非常值得关注的内容。但由于政府信息技术建设早期缺乏统一的规划和管理,各地政务公开网站均自行独立开发建设,其网站架构和后端数据具有不一致性。这导致面向政务公开网站的信息采集应用需要适配多种Web系统,而目前的网站数据采集和网页信息抽取的公开成果主要针对于静态页面,针对动态页面的有效采集和抽取还需要人工编写采集抽取规则,时间和人力的成本是巨大的。针对上述问题,本文提出适用于政务公开网站的自动遍历方法和基于启发式规则的网页信息抽取算法,并以此为基础,设计和实现了智能化的网络信息采集系统。本文的主要工作包括:(1)针对爬取系统无法同时自动化爬取静态网页和动态网页的问题,本文提出适用于政务公开网站的自动遍历方法。本文根据采集深度将网页中的有效信息分层,关注到了分页按钮在自动化采集流程中的重要性,并制作了分页按钮数据集并进行了特征设计,提出了基于XGBoost的分页按钮智能定位方法,该方法对网站页面中的分页按钮识别准确率达到99.85%。经过实验验证,基于该方法提出的爬行策略能够适配多种web系统,采集效率胜过低代码采集工具。(2)针对过往对含有大量相似节点的网页列表抽取需要同时依赖网页HTML和网页视觉信息导致算法时间复杂度较高的问题,本文提出了基于文本特征和路径特征的网页列表信息提取方法,该方法通过将网页HTML源代码解析为树结构,结合语义化的节点属性对树进行剪枝,并基于节点的文本特征和路径特征进行聚类并提取信息。经过实验验证,本文提出的列表页抽取算法在政务平台数据集上抽取效果可以达到97.46%,平均抽取时间为0.021秒。(3)基于上述工作,实现了智能化的网络信息采集系统。系统采用B/S架构,使用多种技术保证系统的易用性和可扩展性。系统能够在全流程无人工参与的情况下实现对多来源的网站进行自动化的采集与信息存储。