Python爬虫实战之爬取拉勾网职位

Python爬虫实战之爬取拉勾网职位 1,爬取拉钩招聘动态网页 网址 :https://www,lagou,com/zhaopin/ 通过 分析 网页结构

本文包含相关资料包-----> 点击直达获取<-------

Python爬虫实战之爬取拉勾网职位

1.爬取拉钩招聘动态网页

网址 :https://www.lagou.com/zhaopin/ 通过 分析 网页结构,爬取当前网页的目标信息,以及各个网页内的职位描述

代码如下

```python import requests from lxml import etree import pandas as pd from time import sleep import random

cookie

cookie = '你的cookie'

headers

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', 'cookie':cookie }

查看网页结构循环页数进行采集

for i in range(1, 20): sleep(random.randint(3, 10)) url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i) print('正在抓取第{}页...'.format(i), url) # 请求网页并解析 con = etree.HTML(requests.get(url=url, headers=headers).text) # 使用xpath表达式抽取各目标字段 job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")] job_address = [i for i in con.xpath("//a[@class='position_link']/span/em/text()")] job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")] job_salary = [i for i in con.xpath("//span[@class='money']/text()")] job_exp_edu = [i for i in con.xpath("//div[@class='li_b_l']/text()")] job_exp_edu2 = [i for i in [i.strip() for i in job_exp_edu] if i != ''] job_industry = [i.strip() for i in con.xpath("//div[@class='industry']/text()")] job_tempation = [i for i in con.xpath("//div[@class='list_item_bot']/div[@class='li_b_r']/text()")] job_links = [i for i in con.xpath("//div[@class='p_top']/a/@href")] #print(job_links)

# 获取详情页链接后采集详情页岗位描述信息
job_des =[]
for link in job_links:
    sleep(random.randint(3, 10))
    print('link:',link)
    con2 = etree.HTML(requests.get(url=link, headers=headers).text)
    #print(con)
    des = [[i for i in con2.xpath("//dd[@class='job_bt']/div/p/text()")]]
    job_des += des
#print(job_des)
break #遍历一次

对数据进行字典封装

dataset = { '岗位名称': job_name, '工作地址': job_address, '公司': job_company, '薪资': job_salary, '经验学历': job_exp_edu2, '所属行业': job_industry, '岗位福利': job_tempation, '任职要求': job_des }

转化为数据框并存为csv

data = pd.DataFrame(dataset) data.to_csv('machine_learning_hz_job2.csv') ```

数据展示

2.爬取静态网页

在请求Request URL网址时,返回”您操作太频繁,请稍后访问“, 用requests.Session()建立Session,建立完成session之后通过session来获取cookie

python for page in range(1, pages): data = { 'first': 'false', 'pn': page, 'kd': 'python' } s = requests.Session() # 建立session s.get(url=url1, headers=headers, timeout=3) cookie = s.cookies # 获取cookie respon = s.post(url = url, headers=headers, data=data, cookies=cookie, timeout=3) time.sleep(7) print(respon.text)

数据清洗网址 https://blog.csdn.net/weixin_43746433/article/details/94489298

数据分析与成图网址 https://blog.csdn.net/weixin_43746433/article/details/94500669

原文链接

参考文献

  • 基于网络爬虫的信息采集分类系统设计与实现(厦门大学·周茜)
  • 主题网络爬虫的研究与设计(南京理工大学·朱良峰)
  • 基于Nutch的网络爬虫及主题搜索引擎系统的设计与实现(北京邮电大学·王冉)
  • 基于配置模板的深网爬虫系统的设计与实现(南京大学·孔德健)
  • 基于Nutch的网络爬虫及主题搜索引擎系统的设计与实现(北京邮电大学·王冉)
  • 复合规则驱动聚焦爬虫系统的设计与实现(哈尔滨工业大学·刘强)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 网络爬虫系统的研究与实现(电子科技大学·赵茉莉)
  • 聚焦爬虫技术研究(江南大学·倪贤贵)
  • 深度可定制的工具化爬虫系统的设计与实现(北京邮电大学·李笑语)
  • 面向校园招聘主题的分布式爬虫系统的设计与实现(大连交通大学·张佳琦)
  • 过滤型网络爬虫的研究与设计(厦门大学·陈奋)
  • 网络舆情爬虫系统的设计与实现(厦门大学·李海燕)
  • 面向主题的爬行搜索策略研究与实现(陕西师范大学·王敏翔)
  • 面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现(华中师范大学·陈欢)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设导航 ,原文地址:https://bishedaima.com/yuanma/35957.html

相关推荐

  • 基于Java的员工培训管理系统

    基于Java的员工培训管理系统 摘 要 随着信息技术的迅速发展,信息资源数字化,网络化的进程进一步加快,信息化的管理系统越来越重要,在本次的课程设计中我们小组选择的是员工培训管理系统作为我们课程设计的目标程序
    2024年05月14日
    2 1 2
  • 基于Python实现对微博文本的简单二元分类

    一,引言与综述 目前以微博为代表的网络社区蓬勃发展,随之而来的是大量的用户评论数据,面向微博文本的情感分析成为舆情监测的重要手段,具有特别的意义,情感分析可以视为文本分类中的一个特例
    2024年05月14日
    4 1 2
  • 基于Vue+SpringCloud博客的设计与实现

    基于Vue+SpringCloud博客的设计与实现 一,摘 要 博客是用来分享自己的心情和动态拉近人与人之间的距离,它改变了人们的在网上的交流方式
    2024年05月14日
    9 1 2
  • 基于Java Web的智能二维码门禁管理系统

    基于 Java Web 的智能二维码门禁管理系统的设计与实现 摘要 我们身边的很多事物都已悄然接入互联网,由此本文提出基于 Java Web 和微信小程序的一套门禁系统的设计
    2024年05月14日
    4 1 1
  • 基于JSP+sqlserver的电子书在线网站源码

    这是一个🔥🔥基于JSP+sqlserver的电子书在线网站🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 电子书在线网站开发技术栈为JSP项目
    2024年05月23日
    6 1 2
  • 无信息搜索之Python

    人工智能实验九 无信息搜索 一,算法原理 无信息搜索这里选择的是一致代价搜索(Uniform-cost search ),它的本质其实就是一个广度优先的搜索
    2024年05月14日
    5 1 1
  • 基于SpringBoot框架的大型商场应急预案管理系统

    这是一个采用Java语言开发的大型购物中心应急响应管理系统,基于流行的SpringBoot框架构建,该项目运用了SpringBoot和Vue的技术栈,开发工具为Idea或Eclipse
    2024年05月23日
    9 1 3
  • 基于SpringBoot框架的车辆管理系统

    这是一套采用Java语言编写的交通车辆管理系统的源代码,基于流行的SpringBoot框架,我们利用了SpringBoot和Vue,js的技术栈来构建该项目,开发工具为Idea或Eclipse
    2024年05月23日
    1 1 1
  • 基于Python的QR二维码的生成与识别程序

    基于Python的QR二维码的生成与识别程序 摘 要 进入二十一世纪之后,高新技术产业得到了极其迅速的发展,计算机,互联网,物联网,云计算等领域的发展,使得整个社会的信息化程度极大提高
    2024年05月14日
    2 1 1
  • Python爬虫实战之爬取饿了么信息

    爬取饿了么某地区的外卖信息 闲来无事,爬取大学城周边的饿了么夜晚外卖信息打发时间, 数据生成josn格式的csv文件,生成词云以及食物信息统计图 数据来源平台 :饿了么 地点选择 :新乡大学城(夜晚) 抓取地址 :https://www
    2024年05月14日
    54 1 11

发表回复

登录后才能评论