Python爬虫爬取网页源代码为空，求问原因&解决方案（向）

代码如下：
import urllib
import urllib2
import re

url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'
req = urllib2.Request(url)
try:
html = urllib2.urlopen(req).read()
print html
except urllib2.HTTPError, e:
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
except urllib2.URLError, e:
print 'We failed to reach a server.'
print 'Reason: ', e.reason
else:
print 'No exception was raised.'

代码结果如下：

求：在爬取网页源代码的时候返回空的原因及解决方案（或解决方向）~求大神指点迷津啊！
        （PS：在处理这个问题的时候，我曾在IDLE上直接敲这段代码运行，有时候可以返回源代码有时候不可以，另外，有时候我把程序运行了几十遍之后，就能返回源代码，这时候我把url的数字2改为3时（即相当下一页），又不可以了，好诡异~~）

写回答
好问题 3 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
JPF1024 2015-08-10 23:06
关注
代码：

#!/usr/bin/env python3 #-*- coding=utf-8 -*- import urllib3 if __name__ == '__main__': http=urllib3.PoolManager() r=http.request('GET','http://www.yingjiesheng.com/guangzhou-moreptjob-2.html') print(r.data.decode("gbk"))

可以正常抓取。需要安装urllib3,py版本3.43
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

编辑

预览

报告相同问题？

关注问题

python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 09:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 06:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬虫爬取京东评论返回空白的求助贴 python
2021-02-17 10:23

回答 3 已采纳在header参数中添加referer默认值，应该是直接访问触发反爬了
零基础Python爬虫从入门到精通教程[视频课程].txt打包整理.zip
2022-03-07 02:02

Scrapy是Python的一个高级爬虫框架，提供了完整的爬取、数据处理和存储解决方案。它包含中间件、爬虫、调度器等组件，适用于大规模和复杂的爬虫项目。学习Scrapy能提高你的爬虫开发效率和项目管理能力。【异步编程...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 04:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 03:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 09:52

回答 2 已采纳 re模块，正则表达式，split切分
2022年数学建模美赛数据Python爬虫
2022-02-23 07:44

Scrapy是一个强大的Python爬虫框架，它提供了一套完整的解决方案，包括网络请求、网页解析、数据提取以及数据存储等。在本项目中，`scrapy.cfg`是Scrapy项目的配置文件，它定义了项目的结构、设置以及中间件、管道等...
python爬虫爬取网页的时候get与post区别 python
2022-01-31 16:24

回答 1 已采纳 https://www.zhihu.com/tardis/sogou/art/439355463看链接，requests模块中get的参数可以放到url链接里，也可以封装到一个字典里requests.
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 13:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 03:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx
2022-02-13 09:30

为了达到这一目的，本项目采用了多线程多端爬虫的技术优势，并结合Scrapy这一强大的Python爬虫框架，构建了一个基于Redis的分布式主题爬虫系统。该系统不仅能够有效抓取大量房源信息，还能够确保数据的实时性和准确...
python爬虫抓取为空，或者网页提示：很抱歉,我们目前暂时不支持 IE 浏览器...
2022-05-17 13:46

weixin_42574045的博客 Python爬虫抓不到内容、抓取的网页需要的字段是空的，怎么动态加载的内容
基于Python、JavaScript及HTML技术的全栈爬虫设计源码
2025-03-07 16:11

在本项目中，共有298个Python源代码文件和33个Python编译文件，它们构成了爬虫的核心逻辑，包括网络请求的发送、数据的解析、异常处理以及数据存储等功能。Python强大的标准库和第三方库资源，比如Scrapy框架，提供...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 05:35

五包辣条！的博客大家好，我是辣条。...网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端(浏
没有解决我的问题, 去提问

Python爬虫爬取网页源代码为空，求问原因&解决方案（向）

5条回答 默认 最新

5条回答默认最新