关于#python#的问题：为什么使用Python爬虫采集不到数据

问一下各位，为什么使用Python爬虫采集不到数据？谢谢各位

import requests
from lxml import etree
import csv

#构造url地址
url = "https://www.zhipin.com/web/geek/job?query=%E5%A4%A7%E6%95%B0%E6%8D%AE&city=100010000&page={}"
#构造请求头信息
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0"
}

#创建一个csv文件
f = open('sccc.csv', mode ='w', newline ='', encoding = 'utf-8')
fieldnames = ['职位', '工作地点', '薪资', '工作经验', '学历', '公司名称', '公司信息', '技术需求', '福利待遇']
#创建write对象
write = csv.DictWriter(f, fieldnames=fieldnames)
write.writeheader()

#实现翻页功能
for i in range(1,11):

    resp = requests.get(url=url.format(i), headers=headers)
    resp.encoding = "utf-8"
        # print(resp.text)

    html = etree.HTML(resp.text)#构造结构化的对象，方便解析使用
    jobs = html.xpath("/html/body/div[1]/div[2]/div[2]/div/div[1]/div[2]/ul")
        #print(jobs)
    for job in jobs:
        item={}#创建item字典去保存数据
        job_name = job.xpath("./li/div[1]/a/div[1]/span[1]/text()")
        item['name'] = job_name[0].strip() if job_name else None
        print(job_name)
        print(item)
            #写入csv文件
        write.writerow(item)

这个是输出的结果

csv文件里是这样的

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-10 14:52
关注
引自免费微信小程序：皆我百晓生

首先，我们来看一下这个问题的具体情况。根据您的描述，您在尝试使用Python爬虫抓取一些网站的数据，但是没有成功。以下是经过仔细检查后，我发现的一些可能的原因及相应的解决方案。

网站结构复杂，且HTML标签不清晰。在尝试提取数据时，可能会遇到HTML标签混乱、乱码等问题。解决方法是先尝试将网页内容分割成多个小块（例如，可以使用BeautifulSoup库中的find_all函数），再分别提取每个部分的数据。

soup = BeautifulSoup(response.text, 'lxml') job_list = soup.find_all(['div', 'div', 'div', 'div']) for job in job_list: item = {} # ...进行其他提取

HTML标签被CSS样式覆盖。某些页面可能存在使用CSS类对元素进行过滤的情况，导致代码无法正常获取到数据。为了解决这个问题，您可以尝试使用 CSS 中的 filter 属性筛选出指定类的元素，并将它们提取出来。

filter_elements = soup.select('.job-item') # 假设 .job-item 是 CSS 类名 for element in filter_elements: item = {} # ...进行其他提取

Python爬虫依赖于爬取代理，而有些网站会对IP地址进行限制。如果爬虫未能通过访问代理成功抓取到数据，则可能是由于这个原因。为了防止这种情况发生，您可以尝试使用代理服务器，并修改爬虫的请求参数，使其避开可能的限制。

proxy = 'your-proxy-server-ip' # 替换为你的代理服务器 IP proxy_user = 'your-proxy-user-name' proxy_password = 'your-proxy-password' requests.post('http://example.com', proxies=[{'proxy': proxy, 'user': proxy_user, 'password': proxy_password}])

编程语言与目标网站浏览器版本不兼容。为了提高爬取效率，您需要确保爬虫所使用的编程语言与目标网站浏览器版本兼容。为此，您可以尝试将爬虫改写为支持目标网站浏览器的语言，或者使用一种现有的工具（例如，Canopy）作为代理服务器，从而绕过浏览器限制。

lang = 'your-language' # 替换为您要使用的编程语言 target browser = {'name': 'Chrome'} # 替换为您的目标浏览器 requests.get('http://example.com', proxies=[{'proxy': proxy, 'user': proxy_user, 'password': proxy_password}], params={'lang': lang}, headers=targetbrowser)

总之，对于您目前遇到的问题，结合上述分析并尝试相应解决方案，应该可以帮助您更好地抓取到网站数据。如果您还有其他疑问或需要进一步的帮助，请随时告诉我。祝您编写顺利！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

关于#python#的问题：爬虫怎么爬取vue的数据，找不到url连接，懂爬虫给我分析一下 python 爬虫
2023-02-19 14:54

回答 1 已采纳 Vue.js 是一个前端框架，常用于构建单页应用程序（SPA）和动态网页。因此，Vue.js 的数据通常是由前端通过异步请求获取并展示的，而不是像传统的多页应用程序一样，由服务器直接渲染并返回 HTM
关于#python#的问题：python爬虫发送请求时添加cookie过长导致报错 python 爬虫
2022-08-25 15:41

回答 3 已采纳这并不是过长导致的，这是格式错误，参考下面步骤，不用一个一个手写参数，直接生成所有请求参数代码就不会报这种错误了：浏览器抓包找到该请求，右键复制-->以cULR格式复制到https://spi
关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
得来全不费功夫，使用Python爬虫自动采集Cookies、URL等网页数据
2023-03-21 20:42

首先，从标题“得来全不费功夫，使用Python爬虫自动采集Cookies、URL等网页数据”中，我们可以了解到文章主要讨论如何利用Python自动化采集网页上的Cookies和URL信息。在描述中，提到手动搜索数据效率低下，而通过...
关于#python#的问题：代码出现statement expected, found Py:DEDENT的错误是什么原因 python
2023-02-13 21:42

回答 4 已采纳毫无疑问，你使用的IDE是PyCharm。你的代码没有问题，这个报错应该是IDE的版本问题。解决方法：打开pycharm.vmoptions或pycharm64.vmoptions配置文件，在文件末尾
关于#python#的问题：模拟登陆后能获取到cookie，就是cookie一天就过期 java python 爬虫
2021-08-12 15:12

回答 1 已采纳间隔一段时间做一些操作的请求，刷新cookie剩余存活时间
关于#python#的问题：重装Numpy也不行(开发工具-pycharm) pycharm python
2023-03-07 18:40

回答 3 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 请看👉 ：PyCharm安装numpy库时遇到的问题解决方法如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放
Python爬虫数据可视化分析大作业.zip
2022-05-29 10:02

Python爬虫数据可视化分析大作业是一项综合性的任务，它涵盖了多个IT领域的知识点，包括但不限于Python编程、网络爬虫技术、数据分析以及数据可视化。下面将详细阐述这些知识点。首先，Python编程是整个作业的基础...
关于#python#的问题：Internal Python error in the inspect module.(开发工具-jupyter) jupyter python 有问必答
2022-04-01 15:45

回答 2 已采纳这是因为使用的是tensorflow2.0以上版本，代码中的函数是1.0的版本,解决方案见如下链接：https://blog.csdn.net/qq_44836803/article/details/
关于#python#的问题：输入一个正整数n，打印出相对应的数字图形输入格式 python 有问必答
2022-03-27 13:50

回答 2 已采纳 n = int(input(">>>")) for i in range(1, n + 1): print(f"{str(i)*i:>{n}}")
关于#python#的知识点：关于求得拟合曲线函数的斜率的问题 python 数据挖掘有问必答机器学习
2021-07-13 15:18

回答 1 已采纳 np.poly1d方法生成的多项式本身带有求导的方法deriv n = np.poly1d([2,3,5,7]) print(n.deriv()) print(n.deriv()(1))
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
关于#python#的问题，帮写爬虫 python
2023-01-31 09:35

回答 8 已采纳马上写
使用Python爬虫采集亚马逊新品榜商品数据
2024-07-26 16:12

CharonXA的博客 13.2 法律和道德考虑采集数据时需遵守相关法律法规，并尊重目标网站的使用条款。违法或不道德的数据采集行为可能带来法律风险和道德争议。13.3 数据质量和实时性问题数据质量和实时性是数据采集的重要指标。采集过程...
Python爬虫技术在数据采集中的应用.zip
2024-05-16 20:37

Python爬虫技术是数据采集领域中的重要工具，它利用编程语言与网络交互，自动化地从互联网上抓取大量信息。Python之所以在爬虫领域占据主导地位，得益于其简洁易读的语法、丰富的库支持以及强大的处理能力。在这个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

悬赏问题

¥100 python 调用 cgps 命令获取实时位置信息
¥15 两台交换机分别是trunk接口和access接口为何无法通信，通信过程是如何？
¥15 C语言使用vscode编码错误
¥15 用KSV5转成本时，如何不生成那笔中间凭证
¥20 ensp怎么配置让PC1和PC2通讯上
¥50 有没有适合匹配类似图中的运动规律的图像处理算法
¥15 dnat基础问题,本机发出,别人返回的包,不能命中
¥15 请各位帮我看看是哪里出了问题
¥15 vs2019的js智能提示
¥15 关于#开发语言#的问题：FDTD建模问题图中代码没有报错，但是模型却变透明了

关于#python#的问题：为什么使用Python爬虫采集不到数据

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新