LENFONGXU 2011-05-10 17:15
浏览 281
已采纳

Beautiful Soup 抓取网页的问题

我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到 其代码, 比如 www.163.com/ www.sina.com这些网站

我抓他首页title都不能让我抓, 但是 抓其他网页 像 www.google.com www.baidu.com这些都没问题

是不是 www.163.com/ www.sina.com这些网页本身加了什么限制 就不能用urllib2.urlopen 来获取网页了?

如果是,怎么冲破他的限制呢 自由抓取呢

代码很简单:
[code="python"]
import urllib2
from BeautifulSoup import BeautifulSoup,Tag
import re
import os
import stat
def analysis(url_str):
page=urllib2.urlopen(url_str)
soup = BeautifulSoup(page,fromEncoding="gb2312")
#print unicode(soup.findAll("table")[4])
kk=soup.html.head.title
return kk

url_str="http://www.163.com"
str_string=analysis(url_str)
print str_string
[/code]

  • 写回答

2条回答 默认 最新

  • tangpython 2011-05-11 15:23
    关注

    lz你的代码我运行结果是乱码,我把fromEncoding="gb2312"改为"gbk"问题就解决了,网易和新浪网页的字符编码都是gbk,gbk包含的字符要比gb2312多点,所以用gb2312抓取gbk的网页可能会产生乱码

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 三因素重复测量数据R语句编写,不存在交互作用
  • ¥15 微信会员卡等级和折扣规则
  • ¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
  • ¥15 随身WiFi网络灯亮但是没有网络,如何解决?
  • ¥15 gdf格式的脑电数据如何处理matlab
  • ¥20 重新写的代码替换了之后运行hbuliderx就这样了
  • ¥100 监控抖音用户作品更新可以微信公众号提醒
  • ¥15 UE5 如何可以不渲染HDRIBackdrop背景
  • ¥70 2048小游戏毕设项目
  • ¥20 mysql架构,按照姓名分表