zcmlimi
2015-08-11 04:55
采纳率: 50%
浏览 10.6k
已采纳

Python爬虫爬取网页源代码为空,求问原因&解决方案(向)

代码如下:
import urllib
import urllib2
import re

url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'
req = urllib2.Request(url)
try:
html = urllib2.urlopen(req).read()
print html
except urllib2.HTTPError, e:
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
except urllib2.URLError, e:
print 'We failed to reach a server.'
print 'Reason: ', e.reason
else:
print 'No exception was raised.'

代码结果如下:
图片说明

求:在爬取网页源代码的时候返回空的原因及解决方案(或解决方向)~求大神指点迷津啊!
        (PS:在处理这个问题的时候,我曾在IDLE上直接敲这段代码运行,有时候可以返回源代码有时候不可以,另外,有时候我把程序运行了几十遍之后,就能返回源代码,这时候我把url的数字2改为3时(即相当下一页),又不可以了,好诡异~~)
  • 写回答
  • 好问题 提建议
  • 追加酬金
  • 关注问题
  • 收藏
  • 邀请回答

5条回答 默认 最新

  • Q544471255 2015-08-11 07:06
    已采纳

    代码:

     #!/usr/bin/env python3
    #-*- coding=utf-8 -*-
    
    import urllib3
    
    if __name__ == '__main__':
        http=urllib3.PoolManager()
        r=http.request('GET','http://www.yingjiesheng.com/guangzhou-moreptjob-2.html')
        print(r.data.decode("gbk"))
    

    可以正常抓取。需要安装urllib3,py版本3.43

    评论
    解决 2 无用
    打赏 举报
  • 查看更多回答(4条)

相关推荐 更多相似问题