zcmlimi 2015-08-11 04:55 采纳率: 50%
浏览 10884
已采纳

Python爬虫爬取网页源代码为空,求问原因&解决方案(向)

代码如下:
import urllib
import urllib2
import re

url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'
req = urllib2.Request(url)
try:
html = urllib2.urlopen(req).read()
print html
except urllib2.HTTPError, e:
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
except urllib2.URLError, e:
print 'We failed to reach a server.'
print 'Reason: ', e.reason
else:
print 'No exception was raised.'

代码结果如下:
图片说明

求:在爬取网页源代码的时候返回空的原因及解决方案(或解决方向)~求大神指点迷津啊!
        (PS:在处理这个问题的时候,我曾在IDLE上直接敲这段代码运行,有时候可以返回源代码有时候不可以,另外,有时候我把程序运行了几十遍之后,就能返回源代码,这时候我把url的数字2改为3时(即相当下一页),又不可以了,好诡异~~)
  • 写回答

5条回答 默认 最新

  • JPF1024 2015-08-11 07:06
    关注

    代码:

     #!/usr/bin/env python3
    #-*- coding=utf-8 -*-
    
    import urllib3
    
    if __name__ == '__main__':
        http=urllib3.PoolManager()
        r=http.request('GET','http://www.yingjiesheng.com/guangzhou-moreptjob-2.html')
        print(r.data.decode("gbk"))
    

    可以正常抓取。需要安装urllib3,py版本3.43

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥30 Matlab打开默认名称带有/的光谱数据
  • ¥50 easyExcel模板 动态单元格合并列
  • ¥15 res.rows如何取值使用
  • ¥15 在odoo17开发环境中,怎么实现库存管理系统,或独立模块设计与AGV小车对接?开发方面应如何设计和开发?请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
  • ¥15 CSP算法实现EEG特征提取,哪一步错了?
  • ¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
  • ¥15 vue3前端取消收藏的不会引用collectId
  • ¥15 delphi7 HMAC_SHA256方式加密
  • ¥15 关于#qt#的问题:我想实现qcustomplot完成坐标轴
  • ¥15 下列c语言代码为何输出了多余的空格