gbl959001 2014-11-12 14:16 采纳率: 0%
浏览 3888

在python爬虫爬网站的时候返回Access denied怎么办

#coding=utf-8
import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("http://www.xxx.com/ ")
f = file('html.txt','w')
f.write(html)
f.close()

返回的Access denied。。查了以下是浏览器不被支持。但是在爬虫下要怎么写?

  • 写回答

3条回答

  • save4me 2014-11-19 05:09
    关注

    浏览器不被支持,那什么设备可以访问?可以试一下修改User-Agent头文件。如果还是不行,尝试抓取可以访问的时候的请求文件头,包括cookie等,然后模拟抓取应该就可以了。

    评论

报告相同问题?

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog