关于数据抓取时网页编码各不相同的问题

最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的,
有没有方法写个公用的类或者对象来处理,求代码

3个回答

 python 判断网页编码的方法:

import urllib
f = urllib.urlopen('http://outofmemory.cn/').info()

print f.getparam('charset')
2 import chardet 你需要安装一下chardet第3方模块判断编码

data = urllib.urlopen('http://outofmemory.cn/').read()

print chardet.detect(data)
希望对你有帮助!

获取网页编码,然后再根据自己需要处理

一一般规范的页面都会描述自己的编码格式,你要做的就是统一处理解析这些编码格式。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问