我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到 其代码, 比如 www.163.com/ www.sina.com这些网站
我抓他首页title都不能让我抓, 但是 抓其他网页 像 www.google.com www.baidu.com这些都没问题
是不是 www.163.com/ www.sina.com这些网页本身加了什么限制 就不能用urllib2.urlopen 来获取网页了?
如果是,怎么冲破他的限制呢 自由抓取呢
代码很简单:
[code="python"]
import urllib2
from BeautifulSoup import BeautifulSoup,Tag
import re
import os
import stat
def analysis(url_str):
page=urllib2.urlopen(url_str)
soup = BeautifulSoup(page,fromEncoding="gb2312")
#print unicode(soup.findAll("table")[4])
kk=soup.html.head.title
return kk
url_str="http://www.163.com"
str_string=analysis(url_str)
print str_string
[/code]