爬虫代码没错却爬取失败？

按照慕课网爬虫视频的代码编写的，图片爬取和保存，IP地址获取的代码都和嵩天teacher的代码一致，却爬取失败
实在找不出原因了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

葡萄城技术团队葡萄城官方账号 2021-07-20 08:12

关注

爬虫被封禁常见原因列表

如果你一直被网站封杀却找不到原因，那么这里有个检查列表，可以帮你诊断一下问题出在哪里。

首先，检查 JavaScript 。如果你从网络服务器收到的页面是空白的，缺少信息，或其遇到他不符合你预期的情况（或者不是你在浏览器上看到的内容），有可能是因为网站创建页面的 JavaScript 执行有问题。


检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求，记得检查一下页面的内容，看看你想提交的每个字段是不是都已经填好，而且格式也正确。用 Chrome 浏览器的网络面板（快捷键 F12 打开开发者控制台，然后点击“Network”即可看到）查看发送到网站的 POST 命令，确认你的每个参数都是正确的。


是否有合法的 Cookie？如果你已经登录网站却不能保持登录状态，或者网站上出现了其他的“登录状态”异常，请检查你的 cookie。确认在加载每个页面时 cookie 都被正确调用，而且你的 cookie 在每次发起请求时都发送到了网站上。


IP 被封禁？如果你在客户端遇到了 HTTP 错误，尤其是 403 禁止访问错误，这可能说明网站已经把你的 IP 当作机器人了，不再接受你的任何请求。你要么等待你的 IP 地址从网站黑名单里移除，要么就换个 IP 地址（可以去星巴克上网）。如果你确定自己并没有被封杀，那么再检查下面的内容。


    确认你的爬虫在网站上的速度不是特别快。快速采集是一种恶习，会对网管的服务器造成沉重的负担，还会让你陷入违法境地，也是 IP 被网站列入黑名单的首要原因。给你的爬虫增加延迟，让它们在夜深人静的时候运行。切记：匆匆忙忙写程序或收集数据都是拙劣项目管理的表现；应该提前做好计划，避免临阵慌乱。


    还有一件必须做的事情：修改你的请求头！有些网站会封杀任何声称自己是爬虫的访问者。如果你不确定请求头的值怎样才算合适，就用你自己浏览器的请求头吧。


    确认你没有点击或访问任何人类用户通常不能点击或接入的信息。


    如果你用了一大堆复杂的手段才接入网站，考虑联系一下网管吧，告诉他们你的目的。试试发邮件到 webmaster@< 域名 > 或 admin@< 域名 >，请求网管允许你使用爬虫采集数据。管理员也是人嘛！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

爬虫代码没错却爬取失败？ python 有问必答
2021-07-20 07:59

回答 4 已采纳爬虫被封禁常见原因列表如果你一直被网站封杀却找不到原因，那么这里有个检查列表，可以帮你诊断一下问题出在哪里。首先，检查 JavaScript 。如果你从网络服务器收到的页面是空白的，缺少信息，或其
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客你好，我是悦创。很多同学一听到 Python 或编程语言，...爬取文档，爬表格，爬学习资料；玩转图表，生成数据可视化；批量命名文件，实现自动化办公；批量搞图，加水印、调尺寸。接下来，我们就逐一用 Python 实
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
为什么python爬虫的结果存储不到MySQL中？ mysql python
2022-06-21 19:56

回答 2 已采纳可能你根本没爬取到
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python爬虫（常见爬取失败问题）
2022-02-10 15:17

程序猿-张益达的博客在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多...也许是向服务器提交自认为已经处理得很好的表单却被拒绝，也许是自己的 IP 地址不知道什么原因直接被网站封杀，无法继续访问。原因可能是一.
python 爬虫方面的问题求交一交。。 python 爬虫
2022-01-17 19:40

回答 1 已采纳 obj = re.compile(r'<table.*?<a class="nbg".*?title="(?P<title>.*?)">'
Python爬虫获取经纬度 python
2022-12-24 18:48

回答 1 已采纳从你提供的代码来看，首先爬取的页面是从上海的充电桩的信息，然后用 pyquery 来解析页面，得到了一个包含了所有充电桩信息的 items 列表。在循环中，解析了每个充电桩的名称和位置，并将它们分别放
批量爬取数据中报错list index out of range（索引本身没问题）怎么办 pycharm python 爬虫
2022-05-25 19:20

回答 2 已采纳你是这句报的错， title = re.findall('<h1 id="video-title" title="(.*?)" class="video-title">', resp.te
【零基础学爬虫】用python爬取小说
2022-04-28 13:14

荒野火狐的博客大佬学的是c#,我学的是python，于是就开始学习了python爬虫，这是学习中觉得好玩的事，也遇到了不少困难。一、先上效果图这本书一共两千四百多章二、使用步骤 1.引入库代码如下（示例）： import numpy as np...
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
python爬取wifi密码完整代码_Python使用爬虫猜密码
2020-11-25 06:02

weixin_39980002的博客我们可以通过python 来实现这样一个简单的爬虫猜密码功能。下面就看看如何使用python来实现这样一个功能。这里我们知道用户的昵称为：heibanke密码是30以内的一个数字，要使用requests库循环提交来猜密码主要需要...
Python使用爬虫猜密码
2020-12-23 16:39

在Python编程中，爬虫是一种常见的技术，用于自动地从互联网上抓取数据。本教程将探讨如何使用Python实现一个简单的爬虫来猜一个设定好的密码。这个例子中，目标是一个用户账号，用户名为"heibanke"，密码是30以内的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月20日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

爬虫代码没错却爬取失败？

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新