python爬虫网站信息乱码问题
    uesr_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'      
headers = {'User-agent':uesr_agent}
req = urllib.request.Request(url, headers = headers)
html_1 = urllib.request.urlopen(req, timeout=120).read()
#html = str(response.read(),'utf-8')

encoding_dict = chardet.detect(html_1)
#print encoding
web_coding = encoding_dict['encoding']
print (web_coding)
if web_coding == 'utf-8' or web_coding =='UTF-8':
    html = html_1
else:
    html = html_1.decode('gbk','ignore').encode('utf-8')
print (html)

    网站地址:
    http://nc.mofcom.gov.cn/channel/gxdj/jghq/jg_list.shtml?par_craft_index=13075&craft_index=20413&startTime=2014-01-01&endTime=2014-03-31&par_p_index=&p_index=&keyword=&page=1

    显示信息:![图片说明](https://img-ask.csdn.net/upload/201703/22/1490160982_691178.png)

    用的python3,把网上的方法都试了一遍,还是不行,不知道怎么办了,求助

3个回答

对应内容UTF8编码处理一下

 In [5]: s = "\xe4\xbb\xb7\xe6\xa0\xbc\xe8\xa1\x8c\xe6\x83\x85".decode('utf8')   

In [6]: s                                                                       
Out[6]: u'\u4ef7\u683c\u884c\u60c5'                                             

In [7]: print(s)                                                                
价格行情                                                                            

放弃chardet吧,直接用 gbk 来解码.
图片说明

secret5
secret5 回复moqiluo: 不好意思,刚看到.你把使用chardet探测编码那一段去了,直接使用gbk解码.也就是 html_1.decode('gbk').
2 年多之前 回复
moqiluo
moqiluo 大神,求代码片段,,,,已经被折腾疯了
2 年多之前 回复

图片说明

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python 爬虫获取网站信息(二)
爬取网站:http://www.xici.net.co/nn 伪代码的功能是,爬取网页上的数据,通过正则表达式,对需要的数据进行提取,并将这些数据插入到数据中。 在爬取的过程中遇到了两个问题,让我一直很头疼一、之前网站还可以正常提取,但后来可能用爬虫爬取的次数多了,网站可能进行了反爬虫修改,这也在程序中有所体现。这个问题纠结了好久。二、问题_mysql_exceptions.Operationa
爬虫之理财网站招标产品(Python篇)
记录爬虫爬取网站思路和分析方法,并解决生活中实际问题而不是作为玩具代码
初学者教程:第一只爬虫——爬取招聘信息(一)
接触了一段时间的python,但仅仅使用了一些基本的函数。但是,Python在数据挖掘方面功能十分强大。总是用牛刀来杀鸡也不合适,终究是要杀几只牛来练练手的微笑。 于是我做了一个使用爬虫爬取招聘网站上的招聘信息的项目,并把整个过程写成一个教程,也是希望初学python和爬虫的同志们可以通过一个小项目来练手。大部分爬虫的入门教程第一课都是爬取贴吧上面的图片。本教程难度和它的难度差不多,但是会更加有意思。
python爬虫(1)——简单的爬取网页的信息
获取网上真实的语料数据,本身对Py的掌握不是很好,记录下自己学习的过程,希望对你有帮助。 #python3 获得taoeba的语料(不知道从哪翻到的这个网站,有各国语言的句子,访问速度较慢 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup as BS import time import re
python爬虫实例——爬取智联招聘信息
受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享。 本文将介绍如何实现该爬虫。
Python爬虫实战:爬取官员官方信息
最近导师给了一个任务:用Python爬取中国官员的官方信息,然后将信息中的关键信息(时间地点任务blablabla)抽取出来,绘制他们的关系图。 千里之行始于足下,我就从Python爬虫开始。 首先上代码: from urllib import request from bs4 import BeautifulSoup url='http://cpc.people.com.cn/gbzl/
Python爬虫——4.4爬虫案例——requests和xpath爬取招聘网站信息
# -*-coding:utf-8 -*- ''' 使用requests模块进行数据采集,XPath进行数据筛选 ''' import requests from lxml import etree # 定义访问路由 url='http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2B%E4%B8%8A%E6%B5%
python爬虫--scrapy爬取腾讯招聘网站
背景:虚拟机Ubuntu16.04,爬取https://hr.tencent.com/招聘信息!第一步:新建项目:scrapy startproject tencent第二步:编写items文件 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See do...
Python爬虫爬取网页信息
本资源是本人根据慕课网的视频教程整理的一份代码,已调试通过。目的是爬取百度百科1000个词条的网页信息,编程环境是Python3.5.
招标网招标信息爬取
本文实现在招标网站上爬取指定关键词的招标信息 #采购与招标信息网 #https://www.chinabidding.cn/ #中国电信外部门户招标信息 #https://42.99.33.26/MSS-PORTAL/account/login.do #中国移动采购与招标网 #https://b2b.10086.cn/b2b/main/showBiao!preIndex.html?noti...
Python爬虫源码—爬取猫途鹰官方旅游网站信息
用Python爬取猫途鹰旅游网站的爬虫代码; 爬取到的数据有:酒店和景点信息,酒店评论信息,景点评论信息; 内附爬虫过程的思路和难点介绍
爬虫-招标信息()
这个写的很舒服 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import requests import re import json import random from time import sleep from datetime import date from functools import reduce class Prov...
如何利用Python爬虫从网页上批量获取想要的信息?
  稍微说一下背景,当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律,首先得有数据啊,数据从哪里来?就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候,手动一个个去下显然是不可取的,我们需要写个脚本,能从特定的网站选择性得批量下载需要的信息。python是不错的选择。 import urllib    #python中用于获取网站的模块import url...
(python爬虫项目)某婚恋网的简单数据爬取
爬取项目目标网站: www.7rdao.com 想要获得的数据: 获取想要省份用户基本信息。 (你想要哪个省就爬哪个省份咯) 既然目标明确,工具齐备. 话不多说,直接打开网页分析. 网页分析: 这是我们想获取的信息.先提交一次看有什么反应! 完整的URL: http://www.7rdao.com/user/search.aspx?sex=0&ddl_StartAg...
python——爬虫实现网页信息抓取
首先实现关于网页解析、读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 def test():    f=urllib.urlopen('http://www.baidu.com')    while True:       firstLine=f.rea
Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self,workname,citys): # 记录查找工作名称 self.workname =
python 爬虫——抓取去哪儿网站景点部分信息
preface: 最近一个同学需要收集去哪儿网的一些景点信息,爬虫上场。像是这么有规律的之间用urllib及BeautifulSoup这两个包就可破。实际上是我想少了。 一、抓取分析 http://piao.qunar.com/ticket/detail_1.html及http://piao.qunar.com/ticket/detail_1774014993.html分别为齐庐山和西海景
四周实现爬虫系统(2)---爬取租房信息
爬取小猪短租网 –300个详情页租房信息 1.实现每个租房详情页信息爬取 2.编写函数实现租房列表页网址获取 3.实现300个详情页租房信息from bs4 import BeautifulSoup import requestsurl='http://sh.xiaozhu.com/fangzi/4187532729.html' def get_info(url): web_data
Python爬虫之实习僧招聘信息及数据分析
真皮沙发这次又来了!在上次的两个爬虫中,笔者探讨了python爬虫的入门以及re模块的运用。而上两次的爬取内容都是笔者闲的蛋疼入门爬虫所选择的连个爬取页面。 今天笔者要来搞事了,这次是搞正事。是的,搞正事。相信很多的同学都有在各大招聘网站上浏览过,各种层出不起的信息,着实让人厌烦。很多人也在着急寻找实习单位为以后找工作打好基础,笔者本着服务于人的态度爬取了一个实习生招聘网站-实习僧,因为笔者在武
python网络爬虫爬取房价信息
爬取房天下(http://newhouse.cd.fang.com/house/s/)成都地区的新房信息。打开http://newhouse.cd.fang.com/house/s/,F12进入控制台点击控制台的左上角的按钮,这是你可以将鼠标移至房天下页面的任何一个地方然后单击,你就可以看到该地方在html代码中的位置,比如:我点击红色区域的文本,那么在控制台中就会出现该文本在html代码中的位置...
第一个完整爬虫:爬取应届生网所有职位的详细信息
在前面几篇博文里其实已经介绍了和Python爬虫相关的很多基础知识,包括基本的抓取网页信息,ip池的建立和使用,多进程在ip验证中的使用,今天我们就把这些内容整合到一起,完成一个真正的爬虫。 我们先来梳理一下思路,要爬取所有职位的详细信息,应该包括以下几步: 1 爬取所有职位及其对应的url 2 对每一个职位所对应的url进行信息提取 3 将信息保存在本地数控库中 4 如果要防止ip被封
Python爬虫学习(一)12306余票信息爬取
环境介绍     IDE:PyCharm Community.     Python 编译器 3.6 实现步骤      1.12306有反爬取机制,余票信息是在网页就绪以后异步加载出来的,首先我们可以打开谷歌浏览器找到,找到中间请求的URL,例如余票检索按钮单击的时候             由上图可知,余票信息是放在result里面的
python网络爬虫学习(五) 模拟登陆北邮信息门户并爬取信息
之前利用爬虫爬取过百度贴吧的部分页面,但是百度贴吧并不需要登录。当我们发现一些网站上有具有实用价值的信息时,又往往需要登录后才能查看这些信息。那么如何通过python模拟登陆这些网站呢?我们以北邮信息门户为例。一.工具1.requests库2.firefox浏览器和Temper Data“工欲善其事,必先利其器”,之前我们介绍过urllib和urllib2这两个python自带的库。而request
使用python爬虫爬取网站最新发布信息的经历
目标:在4月完成
Python实现人人网爬虫,爬取用户所有状态信息。
之前没有怎么用过python,也没写过爬虫,最近几天抽空学习了一下,写了个人人网的爬虫练了练手。     用了BeautifulSoup4包来解析HTML标签,Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。使
python爬虫(上)--请求——关于旅游网站的酒店评论爬取(传参方法)
前言最近考试一直都没有时间写这篇总结,现在考试暂告一段落,现在抽空出来写一篇总结,总结一下python爬虫的学习进度。承接上一篇基于scrapy框架爬虫学习小结,上一篇主要是第二次作业后,“老师说会给我们时间继续完善这个作业,直到可以真的爬到微信朋友圈内容….”,其实之后前面半句是有,但是后面半句真的爬到朋友圈却没有了,老师改变了需求,我们变成了去爬一些旅游网站了。我们被分派到的任务是:研究分析携程
python 爬取各大招聘网站信息
python 爬取各大招聘网站信息,源码,留给自己看的1、拉勾from bs4 import BeautifulSoup import requests import urllib from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.suppo
利用python爬取实习僧网站上的数据
最近在找实习,就顺便想到用python爬取一些职位信息看看,有哪些岗位比较缺人。
Python 网络爬虫--简单的模拟登录
和获取网页上的信息不同,想要进行模拟登录还需要向服务器发送一些信息,如账号、密码等等。 模拟登录一个网站大致分为这么几步: 1.先将登录网站的隐藏信息找到,并将其内容先进行保存(由于我这里登录的网站并没有额外信息,所以这里没有进行信息筛选保存) 2.将信息进行提交 3.获取登录后的信息 先给上源码 # -*- coding: utf-8 -*- import requests d
Python爬虫入门:如何爬取招聘网站并进行分析
python爬虫实操干货,一分钟了解全国行业工资水平,适合新手,数据抓取、清洗、结果分析一步到位
python 爬虫入门(6) 简单爬去学校网站的绩点
记录用途,方便自己以后查看用 import sys import io import re import urllib import urllib2 import requests import cookielib reload(sys) sys.setdefaultencoding('utf-8') urls="http://jwgl.just.edu.cn:8080/jsxsd/xk/
Python网页爬虫之中文乱码
Python爬取中文网页乱码解决方法
python爬虫之伪造报头来采集网页信息
python伪造报头来采集网页信息
python3爬虫无法显示中文问题解决
有时候使用python从网站上爬数据的时候,如果数据里包含中文,有时候显示的却是如下所示...\xe4\xba\xba\xef\xbc\x8c\xe6...类似与国际化解决方法:import urllib.request import sysweburl="..." webhead=... req=urllib.request.Request(url=weburl,headers=webhead)
Python爬虫——4.5urllib2和xpath爬取前程无忧网招聘信息
# coding:utf-8 ''' 使用urllib2模块进行数据采集,使用XPath进行数据筛选,使用随机免费代理 ''' # 引入需要的模块 import urllib2 from lxml import etree import random # 免费代理列表 proxy_list = [{"http":"116.8.83.3:8118"}, {"http":"116.8.83.3:
使用python爬取学校门户网站相关信息并格式化输出
我们学校的信息门户是必需要登录才能去看的。而且网页模块的排版比较不友好,很多重要信息例如讲座的通知,后勤的断水断电的通知没有办法很方便的及时获知。受到我舍友(手动@杨大潍)的启发,我就开始在期末花了一点时间做了这么一个脚本。
Python爬虫爬取知乎用户信息+寻找潜在客户
【Python应用】寻找社交网络中的目标用户 这是我们学校的软件工程课程设计的题目,要求自行编写爬虫或者利用开放的API获取新浪微博、知乎等社交网站的用户信息,利用数据挖掘的相关算法进行分析, 从大规模的用户群体中, 分别找出其中具有海淘或母婴购物意向的用户。
Python爬虫之五:抓取智联招聘基础版
对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工作的面试做准备?今天我们来抓取智联招聘的招聘信息,助你换工作成功! 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1、网页分析 1.1 分析请求地址 1.2 分析有用数据 2、写入文件 3、进度...
python3小项目——爬取智联招聘信息(二)
这两天,心血来潮又把前几天的爬取招聘信息程序丰富了一下,是对爬取到的信息再处理以及分类保存。 具体功能: 将全部信息保存成矩阵形式,去除无用信息,并在当前目录下生成文件夹并此文件夹下把信息分类保存成.csv格式  #删除除"公司规模": "20人以下", "20-99人"; "最低学历": "博士","大专"; "经验": "3-5年","5-10年", "10年以上"的情况 根据公司
利用node.js写爬虫 爬取某相亲网站全部交友信息
利用ajax异步传输技术,写了一个爬虫js。1个小时左右的时间,便爬取了2000多条交友信息,包括网名,年龄,图片,学历,工资等。当然,爬取的速度和网速有很大的关系,也和你要爬取的网站响应的速度有关。先看一下,爬取的成果(涉及隐私,面部全部打上马赛克) 说一下思路和代码流程: 首先require引入http(如果爬取的网站是https安全模式的话,引入https),fs
相关热词 c# mysql插入 c# sha256 加密 c#窗体上的叉添加事件 c#打印图片文件 c#後台調前台js c#控制台美化 c# 标记 浮点型 c#获取当前的农历日期 c# 构造函数重载 c# 页面功能注释