数据分析 — 招聘数据爬取和分析

一、数据获取

需求:

招聘数据获取地址:https://careers.tencent.com/home.html

获取字段:岗位的名称、岗位职责、发布时间

import pandas as pd  # 导入 Pandas 库并使用别名 pd  
import requests  # 导入 requests 库,用于进行 HTTP 请求  
import time  # 导入 time 模块,用于处理时间相关操作  
import json  # 导入 json 模块,用于处理 JSON 数据  
import random  # 导入 random 模块,用于生成随机数

# 初始化一个空列表,用于存储招聘信息
lst = []
# 获取当前时间戳,乘以1000是为了将秒转换为毫秒
timestamp = int(time.time() * 1000)
# 获取用户输入的关键词和要爬取的数据页数
keyword = input('请输入要搜索的关键词:')
pageIndex = int(input('请输入要爬取的数据页数:'))

# 设置请求头,模拟浏览器访问
head = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

# 遍历每一页数据
for page in range(1, pageIndex + 1):
    # 构建请求 URL,使用 f-string 格式化字符串,将关键词和页数嵌入 URL 中
    url = f"https://careers.tencent.com/tencentcareer/api/post/Query?timestamp={
     timestamp}&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword={
     keyword}&pageIndex={
     page}&pageSize=10&language=zh-cn&area=cn"
    # 打印当前请求的 URL
    print(url)
    
    # 发送 GET 请求获取数据
    res = requests.get(url=url, headers=head)
    # 将返回的内容解码为 UTF-8 格式的字符串
    result = res.content.decode('utf-8')
    # 随机等待1到5秒,模拟人为操作,防止被网站封 IP
    time.sleep(random.randint(1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值