Beautiful Soup 抓取网页的问题

我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到其代码，比如 www.163.com/ www.sina.com这些网站

我抓他首页title都不能让我抓，但是抓其他网页像 www.google.com www.baidu.com这些都没问题

是不是 www.163.com/ www.sina.com这些网页本身加了什么限制就不能用urllib2.urlopen 来获取网页了？

如果是，怎么冲破他的限制呢自由抓取呢

代码很简单：
[code="python"]
import urllib2
from BeautifulSoup import BeautifulSoup,Tag
import re
import os
import stat
def analysis(url_str):
page=urllib2.urlopen(url_str)
soup = BeautifulSoup(page,fromEncoding="gb2312")
#print unicode(soup.findAll("table")[4])
kk=soup.html.head.title
return kk

url_str="http://www.163.com"
str_string=analysis(url_str)
print str_string
[/code]

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
tangpython 2011-05-11 15:23
关注
lz你的代码我运行结果是乱码，我把fromEncoding="gb2312"改为"gbk"问题就解决了，网易和新浪网页的字符编码都是gbk，gbk包含的字符要比gb2312多点，所以用gb2312抓取gbk的网页可能会产生乱码

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Beautiful Soup 抓取网页的问题 python
2011-05-10 17:15

回答 2 已采纳 lz你的代码我运行结果是乱码，我把fromEncoding="gb2312"改为"gbk"问题就解决了，网易和新浪网页的字符编码都是gbk，gbk包含的字符要比gb2312多点，所以用gb2312抓取
关于Beautiful soup findall()函数抓取天气网站历史天气的问题 python 有问必答
2021-10-16 23:53

回答 2 已采纳请求返回的就是一个带td等标签（表格格式数据）的json数据，可用字符串方法进行处理，推荐使用pandas的read_html去读取表格更为简便，用如下方式解决： for url in urls:
python爬虫：soup.select（）抓取信息路径表达问题 python
2019-07-02 18:16

回答 1 已采纳没用过select，但看样子是这样用的 ``` from bs4 import BeautifulSoup import requests url = 'http://bj.xiaozhu
python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容
2021-03-17 01:00

凶猪下山的博客利用Python和Beautiful Soup抓取网页内容Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑收藏Python 3中提供了url打开模块urllib.request和HTML的解析模块html.parser模块。但是html.parser模块的功能...
python3大学排名，输出问题！ python
2022-04-29 12:48

回答 2 已采纳 def printUnivList(num): print("{:^4}{:^10}{:^5}{:^8}{:^10}".format ("排名","学校名称","省
Python获取div下内容 python 爬虫
2022-04-14 10:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
python爬虫获取源码与网页不同 python 爬虫
2017-09-29 14:07

回答 1 已采纳网页中有js脚本的话，可以在下载网页后动态修改/添加网页本身，也就是ajax
Beautiful Soup爬虫框架在Python爬虫开发中的重要性
2023-02-14 08:10

同时，也可以用Beautiful Soup来处理XML文档，如解析RSS、Atom等格式的XML文档，从而获取相关信息。Beautiful Soup可以帮助我们从HTML页面中提取数据，提高爬虫开发效率和数据提取的准确性。其他说明： Beautiful ...
python爬虫bs4中用select如何获取属性值 python
2021-12-26 12:33

回答 2 已采纳 ```python from bs4 import BeautifulSoup import re html = """ <html><head><title>
python爬虫入门问题 python 有问必答
2021-06-16 16:50

回答 3 已采纳有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数 getData里，for循环
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
使用 Beautiful Soup 在 Python 中抓取网页
2022-01-14 08:36

Linux资源站的博客提取后，我们将使用 Beautiful Soup 将其转换为 Python 列表或字典。为了让网络抓取在 Python 中工作，我们将执行三个基本步骤：使用requests库提取 HTML 内容。分析 HTML 结构并识别包含内容的标签。使用 ...
python自动操作百度知道问题 python 有问必答
2021-07-20 21:06

回答 3 已采纳直接去掉这些代码，你每次都删除文件再创建，肯定只有最后一行的数据如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
探索Python中的Beautiful Soup：网页数据解析利器
2023-09-05 15:53

前端奇遇记的博客 Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
使用Beautiful Soup解析网页
2020-09-24 08:45

要不要吃烤肉的博客 3 使用Beautiful Soup解析网页 Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发，大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准...
没有解决我的问题, 去提问

悬赏问题

¥15 三因素重复测量数据R语句编写，不存在交互作用
¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表

Beautiful Soup 抓取网页的问题

2条回答 默认 最新

悬赏问题

2条回答默认最新