基于Python设计一个简单的爬虫

毕设工坊 • 2024年05月14日 12:00 • 其他源码 • 阅读 6

一个简单的爬虫，针对”谷歌学术-高级搜索-指定学者“的搜索结果，结构化获取数据目录程序说明事项说明爬虫部分如何使用数据 requirements 注意事项该程序目前仍存在有一些缺陷

本文包含相关资料包-----> 点击直达获取<-------

一个简单的爬虫，针对”谷歌学术-高级搜索-指定学者“的搜索结果，结构化获取数据

目录

程序说明事项
说明
爬虫部分
如何使用数据
requirements

注意事项

该程序目前仍存在有一些缺陷，详见 注意事项.md 。

使用前请在文件 g_utils.py 中修改第 8 行代码：

8 proxy = {'https': 'http://127.0.0.1:21882'} # Modify it to your own port number ，将代理设置成自己的代理。

然后直接运行 python3 google_scholar.py 即可。

程序说明

该程序会从兰德公司官网爬取其所有专家的名字及研究领域，随后利用谷歌学术的高级搜索，依次搜索其专家的论文情况（不包含引用）并保存相关结果。

被保存的相关结果如下图所示（或见文件./example/tar_info.png）:

相关标号说明如下：

文章的标题；
文章的 url；
文章发表的杂志/期刊（若没有则保存值为“None”，str 类型）；
文章发表的年份（若没有则保存值为“None”，str 类型）；
文章所在网站所属域名；
文章的被引用次数（若没有则保存值为 0）。

爬虫部分

爬虫部分由两部分构成：

从兰德公司官网的专家列表爬取专家的名字；
在谷歌学术利用高级搜索，搜索包含专家名字的论文，过滤并保存。

爬取谷歌学术的代码文件主要有三个： g_utils.py 、 google_scholar.py 、 utils.py

爬取兰德公司官网的专家列表的代码文件有： for_rand.py

for_rand.py

输入命令 python3 for_rand.py 即可获取兰德公司的所有专家名字及研究方向，

结果保存在 ./data/stafflist.json 文件中

本来以为兰德公司的专家页面和普通爬虫的流程一样直接对获取到的 HTML 进行解析即可，然而实际工作时发现它采用了异步传输数据的方式，

真实的专家信息实际上在这个页面中，因此直接获取保存即可。

获取到的 XML 数据有很多内容，由于我只关心专家名字及其研究方向，因此将这两部分内容单独提取出来。

原始数据见文件 ./data/stafflist.xml

google_scholar.py

爬取谷歌学术搜索结果的主函数部分。在运行其之前，请先运行 for_rand.py 以获取专家列表。

在命令行输入命令： python3 g_utils.py

爬虫会先查找文件 ./data/stafflist.json 并获取专家名字列表，

随后依次在谷歌学术上对这些专家进行搜索，以得到 不含引用 的论文信息。

爬取结果将被保存在以专家的名字命名的文件中，文件内容为与该专家相关的所有关注的检索信息。

所有的结果将被保存在 ./data/info/ 目录下 ，如下图所示（若下图无法显示，请查看文件 ./example/info_list.png ）

爬取到的专家的相关信息的示例见文件 ./example/Samuel Absher ，其结构如下图所示：

若下图无法显示，则可在此页面并上传文件 ./example/Samuel Absher 查看 JSON 结构。

这是 Noha Abdel-Karim 的相关信息，文件名是 Noha Abdel-Karim ，虽然没有后缀名，但这其实是一个 JSON 文件。JSON 内容是一个由 13 个字典构成的列表，字典的键值对如图所示。

爬取时若遇到意外情况导致程序退出（如被谷歌封了 IP），切换主机的 VPN 站点并重新运行 google_scholar.py 即可，爬虫可在中断处继续开始工作，而不是从头开始。

Attention！！！

1、这里采用了以专家名命名文件、信息作为文件内容的方式，一方面是为了防止数据全都存储在内容中导致内存爆炸；另一方面也是为了爬虫出现异常情况时至少能有一部分数据被保留下来，且当爬虫重新开始工作时，可忽略已保存的数据，从中断处继续工作。

2、实际上，谷歌除了会封 IP，偶尔也会返回一个空页（需要进行人机验证），代码中未增加对空页的判断，从而使得空页的提取结果为空，但该”空“仍然被保存到文件当中。因此，程序规定，若连续遇到三个空页，则推出运行，此时需要手动查看最近的三个文件及三个专家对应的 Google scholar 页面，若确实没有内容，则重新运行即可；若 Google scholar 页面不为空而本地文件为空，则需删除本地文件、更换 VPN 站点、重新运行程序。

g_utils.py

爬虫的辅助部分，主要用于请求头的构建、cookie 的构建、访问网页、保存指定的 HTML 块的内容、对缺省内容进行 padding。

缺省内容主要存在于论文发表的期刊名和发表年份往往会出现缺失，程序会将缺失的内容用 "None"\<type ’str‘> 进行补全。

utils.py

一些通用的工具函数，如 JSON 格式的保存及读取等。

如何使用数据？

kits.py 将会告诉你如何使用爬取到的数据。

这个文件中包含了一些函数，通过观察（调用）这些函数可以明白如何使用 for_rand.py 以及 google_scholar.py 爬下来的数据。

函数 get_experts() 以及 get_info() 分别实现了从文件 ./data/stafflist.json 和目录 ./data/info/ 查询信息。

函数 usage_example 作为一个实例，指明了如何单独使用上述两个函数和如何组合使用上述两个函数来查询信息。

requirements

interpreter version

python 3.8

packages

bs4

JSON

os

random

re

requests

time

xml.dom.minidom

xml.etree.ElementTree

参考文献

面向特定网页的Web爬虫的设计与实现（吉林大学·马慧）
主题网络爬虫的研究与设计（南京理工大学·朱良峰）
Inar网络爬虫的设计与实现（哈尔滨工业大学·林乐彬）
基于网络爬虫的搜索引擎的设计与实现（湖北工业大学·冯丹）
网络爬虫技术在云平台上的研究与实现（电子科技大学·刘小云）
基于网络爬虫的搜索引擎的设计与实现（湖北工业大学·冯丹）
主题爬虫的实现及其关键技术研究（武汉理工大学·张航）
搜索引擎中网络爬虫技术研究（西安电子科技大学·郭海燕）
面向多爬虫的监控系统的设计与实现（北京邮电大学·张军强）
面向中小学教育资源的网络爬虫的研究与设计（中央民族大学·郑名达）
搜索引擎中通用爬虫系统的研究与设计（吉林大学·高龙）
网络爬虫技术在云平台上的研究与实现（电子科技大学·刘小云）
基于页面分析的网络爬虫系统的设计与实现（华中科技大学·郝以珍）
主题网络爬虫的研究和实现（武汉理工大学·林捷）
面向主题的爬行搜索策略研究与实现（陕西师范大学·王敏翔）

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设工坊，原文地址：https://bishedaima.com/yuanma/36165.html

设计 Python SEO 简单爬虫

资源下载

本站所有项目都经过严格测试,直连告诉下载项目包, 毕设课设定制需求, 点此提交表单

代码都经过了认真的调试,不免费哦联系QQ2625289483 更多资料关注公号: 大学生学习圈

基于python实现的小区停车数据分析

某小区停车数据分析核心内容：处理大量excel表格数据，数据可视化一，问题描述现有2018年9月的某小区停车数据，如下图， 30共30天的excel表格

源码港湾
2024年05月14日
4 1 3 1
基于Vue+SpringCloud博客的设计与实现

基于Vue+SpringCloud博客的设计与实现一，摘要博客是用来分享自己的心情和动态拉近人与人之间的距离，它改变了人们的在网上的交流方式

代码驿站
2024年05月14日
9 1 2 1
基于SpringBoot框架的医院后台管理系统

这是一套采用Java编程语言，基于SpringBoot框架构建的医院后台管理系统的源代码，该项目融入了Vue技术，开发工具为Idea或Eclipse，此医院信息管理系统适用于毕业设计或课程实践项目

毕业设计工坊
2024年05月23日
25 1 6 4
论坛网站

这是一个🔥🔥基于SpringBoot框架的论坛网站设计与实现🔥🔥的项目源码，开发语言Java，框架使用的SpringBoot+vue技术，开发环境Idea/Eclipse

源码工坊
2024年05月23日
6 1 1 2
基于Web搜索引擎的设计与实现

基于Web搜索引擎的设计与实现摘要我们处在一个大数据的时代，伴随着网络信息资源的庞大，人们越来越多地注重怎样才能快速有效地从海量的网络信息中

代码港湾
2024年05月14日
3 1 3 1
基于springboot的自适应博客系统实现

自适应博客系统在当今互联网时代具有重要意义，随着网络技术的发展，个人博客已成为人们分享知识，表达观点的重要平台，然而，现有的博客系统在适应不同设备和用户需求方面存在一定局限性

代码港湾
2024年05月07日
8 1 2 1
基于SSM的车辆维修管理系统设计与实现

车辆维修管理系统是当前汽车维修行业中的一个重要组成部分，随着私家车数量的不断增加，汽车维修行业迎来了蓬勃发展的机遇，然而，随之而来的挑战是如何有效管理维修车间的工作流程和业务

源码驿站
2024年05月07日
76 1 13 7
基于PHP和Web的subversion用户管理系统

基于PHP和Web的subversion用户管理系统摘要本系统主要是基于Web的subversion系统的用户管理系统，在开源软件世界，并行版本系统(cvs)一直是版本控制长久以来的唯一选择

源码工厂
2024年05月14日
7 1 2 2
基于Android的电子词典安卓APP源码

这是一个🔥🔥基于Android的电子词典安卓APP源码🔥🔥的项目源码，开发语言Java，开发环境Idea/Eclipse，这个电子词典安卓APP开发技术栈为安卓项目

源码码头网
2024年05月23日
9 1 2 3
SSH实现在线商城在线售卖系统、javaweb+mysql

这是一个🔥🔥SSH实现在线商城在线售卖系统，javaweb+mysql🔥🔥的项目源码，开发语言Java，开发环境Idea/Eclipse，这个在线商城系统开发技术栈为SSH项目

毕设导航
2024年05月23日
10 1 3 2

发表回复

登录后才能评论