数据仓库任务一我就糊涂了

需要采取数据

而且为了后面的做题，采集的数据必须包含这些城市和这些职位


import requests
from bs4 import BeautifulSoup
import csv
import os

# 模拟请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Boss直聘搜索URL (示例)
url = 'https://www.zhipin.com/c101010100/?query=python'

proxies = {
    "http": None,
    "https": None,
}

response = requests.get(url, headers=headers, proxies=proxies)
soup = BeautifulSoup(response.text, 'html.parser')

# 获取职位信息
jobs = soup.find_all('div', class_='job-primary')

job_list = []

for job in jobs:
    title = job.find('div', class_='job-title').text
    company = job.find('div', class_='company-text').text.strip()
    salary = job.find('span', class_='red').text
    location = job.find('span', class_='job-area').text
    job_list.append([title, company, salary, location])

# 保存到本地CSV文件
file_path = 'jobs.csv'
with open(file_path, 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Title', 'Company', 'Salary', 'Location'])
    writer.writerows(job_list)

print(f"Data saved to {file_path}")

这段代码始终报错requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.zhipin.com', port=443): Max retries exceeded with url: /web/common/security-check.html?seed=fXtv3Wx5EcKOfCsStJTXhP%2BsoJGhSDCga0c5cJsZ3XM%3D&name=c71cff0c&ts=1718454925401&callbackUrl=%2Fc101010100%2F%3Fquery%3Dpython&srcReferer= (Caused by ProxyError('Unable to connect to proxy', OSError(0, 'Error')))
无论我如何修改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-15 21:17
关注
引自免费微信小程序：皆我百晓生

面对你遇到的问题，让我们一起分析并解决它。错误信息表明在尝试通过代理访问www.zhipin.com时出现了连接失败的情况。这可能是由于代理设置不正确或代理服务器本身存在问题导致的。

首先，检查你的代理配置是否正确。在你的代码中，代理被设置为None，这意味着默认情况下不会使用任何代理。如果你确实需要使用代理，确保提供正确的代理服务器地址和端口，例如：

proxies = { "http": "http://your-proxy-server:port", "https": "https://your-proxy-server:port", }

如果你不需要使用代理，可以简单地删除proxies参数，这样requests.get()将直接尝试连接目标网站而不会使用代理。

此外，Boss直聘可能实施了反爬虫措施，包括但不限于IP封禁、验证码要求等。为了避免这些问题，可以考虑以下策略：

使用更复杂的User-Agent：有些网站会根据User-Agent判断请求来源，更改User-Agent可能有助于绕过一些基本的反爬虫机制。
添加延迟：在请求之间增加延迟，避免过于频繁的请求被识别为爬虫行为。
使用代理池：如果使用代理，建议使用代理池来轮流使用不同的代理，降低单个IP被封的风险。

下面是一个改进后的代码示例，去除了代理设置，并增加了随机User-Agent和请求之间的延迟：

import requests from bs4 import BeautifulSoup import csv import random import time # 随机User-Agent列表 user_agents = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', # 更多User-Agent... ] # Boss直聘搜索URL (示例) url = 'https://www.zhipin.com/c101010100/?query=python' headers = { 'User-Agent': random.choice(user_agents), # 随机选择一个User-Agent } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 获取职位信息 jobs = soup.find_all('div', class_='job-primary') job_list = [] for job in jobs: title = job.find('div', class_='job-title').text company = job.find('div', class_='company-text').text.strip() salary = job.find('span', class_='red').text location = job.find('span', class_='job-area').text job_list.append([title, company, salary, location]) time.sleep(random.uniform(1, 3)) # 在每个请求后添加随机延迟 # 保存到本地CSV文件 file_path = 'jobs.csv' with open(file_path, 'w', newline='', encoding='utf-8') as file: writer = csv.writer(file) writer.writerow(['Title', 'Company', 'Salary', 'Location']) writer.writerows(job_list) print(f"Data saved to {file_path}")

如果以上方法仍然无法解决问题，可能需要进一步研究Boss直聘的具体反爬虫策略，或者寻找第三方提供的API服务来获取数据，这通常会更加稳定和可靠。不过，使用第三方服务可能涉及到费用或数据使用权限的问题，需谨慎考虑。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
我可以认识一个大数据的资深DN吗？数据仓库数据库开发
2022-08-12 14:49

回答 2 已采纳可以先从 B站的尚硅谷视频开始学习1、介于已经在做大数据的工作，但又不了解整个行业的东西，所以可以尚硅谷的离线项目来整体的学习一波2、等离线项目都学完了，对整个大数据的东西都有一定了解，可以再学习实时
大数据离线数仓的学习路线是什么？大数据数据仓库有问必答
2021-11-03 15:23

回答 1 已采纳 Java或者python基础 hdfs zookeeper flume kafka hive mysql sqoop azkaban,离线数仓只是大数据一部分内容，发展方向这个不好说，你不能只靠这一个
大数据:正在到来的数据革命
2017-11-20 22:24

qq_40361801的博客《大数据:正在到来的数据革命》编辑推荐：大数据战略，重新洗牌全球格局：美国，再一次领跑世界；中国，却很可能再失良机而浑然不知！中国迷局如何解开？海归视野、16年中美职业生涯的作者，从太平洋对面看到中美两...
大数据离线数仓遇到工作瓶颈大数据数据仓库
2022-08-06 14:55

回答 2 已采纳看你是要横向发展还是纵向发展了，如果继续大数据离线数仓的纵向发展工作，那么对各种数据库，nosql，olap的操作方式，每种工具底层原理都要比较熟悉，其实不管怎样，核心关注的都是时间复杂度和空间复杂度
数据仓库，hive· 数据仓库
2023-03-03 15:15

回答 1 已采纳小魔女参考了bing和GPT部分内容调写:是的，使用数据仓库时，一定要用到任务调度工具。任务调度工具可以帮助我们实现对数据仓库中的数据进行自动化处理，从而提高数据处理的效率。任务调度工具可以让我们定义
数据仓库、Apache hive hive 数据仓库
2023-02-27 14:43

回答 1 已采纳 DataGrip是一个数据库管理工具，主要用于连接和管理多种关系型数据库，例如MySQL、Oracle、PostgreSQL等。它提供了一系列的工具和功能，可以帮助用户管理数据库结构、编辑SQL语句、
澳大利亚往年气候数据大数据数据仓库数据库有问必答
2021-07-29 08:38

回答 1 已采纳参考一下相关资料：https://www.zhihu.com/question/19789309如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
为什么我每次要重启电脑，才能打开cloudera manager cloudera 大数据数据仓库
2023-02-28 20:48

回答 1 已采纳有几个可能:1、内存不足：Cloudera Manager 需要大量内存才能运行，如果你的计算机没有足够的可用内存，可能会导致 Cloudera Manager 无法正常运行。可以尝试关闭一些不必要的
明年毕业，学过大数据开发，也非常想从事这方面，收到了数仓测试的offer，入职了，这对今后的发展有用吗大数据数据仓库
2021-08-06 09:34

回答 3 已采纳数仓测试是什么岗位？？？工作需求是啥，需要掌握的技术是啥。离线脚本sql偏多些，实时开发偏多些。
大数据生态系统组件基础学习
2022-07-28 11:02

m0_62653861的博客 大数据生态系统，特别是几大主流数据库之间的基础语法学习
python数据分析利用pandas依次统计每一列特征值的个数 python 数据仓库有问必答
2021-12-23 15:10

回答 3 已采纳依次统计，那就是要遍历咯。以下是算 1 的个数。 df1_columns = df1.columns df1_count = [0 for n in range(len(df1_columns))
sqoop导出solr数据_超详细的大数据学习的各个阶段
2020-12-20 13:49

weixin_39986741的博客摘要：第一阶段:Linux课程讲解Linux基础操作,讲的是在命令行下进行文件系统的操作,这是Hadoop学习的基础,后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础,特增加该内容,保证零linux基础入门。如果你...
hadoop,spark,大数据,数据分析,实战内部培训视频资料价值Ｗ＋
2016-08-15 08:55

ZeroTeam_麒麟的博客课程列表:某人学院学堂第一阶段：Linux课程讲解linux基础操作，讲的是在命令行下进行文件系统的操作，这是hadoop学习的基础，后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础，特增加该内容，保证零...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月15日

悬赏问题

¥15 pcl运行在qt msvc2019环境运行效率低于visual studio 2019
¥15 MAUI,Zxing扫码，华为手机没反应。可提高悬赏
¥15 python运行报错 ModuleNotFoundError: No module named 'torch'
¥100 华为手机私有App后台保活
¥15 sqlserver中加密的密码字段查询问题
¥20 有谁能看看我coe文件到底哪儿有问题吗？
¥20 我的这个coe文件到底哪儿出问题了
¥15 matlab使用自定义函数时一直报错输入参数过多
¥15 设计一个温度闭环控制系统
¥100 rtmpose姿态评估

数据仓库任务一我就糊涂了

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新