UnicodeDecodeError：“gbk”编解码器问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

# -*- coding: utf-8 -*-
"""
Tushare社区股票数据抓取
"""

import urllib.request
import re
import pandas as pd
import pymysql
import os

def getHtml(url):
    html = urllib.request.urlopen(url).read()
    html = html.decode('gbk')
    return html

def getStackCode(html):
    s = r'<li><a target="_blank" href="http://quote.eastmoney.com/\S\S(.*?).html">'
    pat = re.compile(s)
    code = pat.findall(html)
    return code

Url = 'http://quote.eastmoney.com/stocklist.html'
filepath = 'C:\\data\\'
code = getStackCode(getHtml(Url))
CodeList = []
for item in code:
    if item[0]=='6':
        CodeList.append(item)
for code in CodeList:
    print('正在获取股票%s数据'%code)
    url = 'http://quotes.money.163.com/service/chddata.html?code=0'+code+\
        '&end=20161231&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP'
    urllib.request.urlretrieve(url, filepath+code+'.csv')

运行结果及报错内容

Traceback (most recent call last):
File "C:/Python/WorkSpace/py_case/股票数据抓取.py", line 30, in
code = getStackCode(getHtml(Url))
File "C:/Python/WorkSpace/py_case/股票数据抓取.py", line 17, in getHtml
html = html.decode('gbk')
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 139: illegal multibyte sequence

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-30 09:33
关注
题主这个代码从哪搞来的，应该好老了。采集的这个页面已经不存在了，跳转
到http://quote.eastmoney.com/center/gridlist.html#hs_a_board
这个页面，这个页面用的js加载的数据，接口是
http://5.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124009030612137700134_1638235189055&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1638235189056

注意是jsonp数据，要处理过才能获取到，不过可以去掉cb=jQuery1124009030612137700134_1638235189055回调参数后返回json数据直接用

然后直接请求这个接口就行，接口包含了下面的信息，如果要其他信息题主自己通过浏览器开发工具找相关的接口来请求

示例代码如下

import requests headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36' } url='http://5.push2.eastmoney.com/api/qt/clist/get?pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1638235189056' data=requests.get(url,headers=headers).json() for item in data['data']['diff']: print(item['f12'],item['f14'])

有帮助麻烦点下【采纳该答案】，谢谢~~有其他问题可以继续交流~
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

UnicodeDecodeError：“gbk”编解码器问题 pycharm python 有问必答
2021-11-29 23:08

回答 3 已采纳题主这个代码从哪搞来的，应该好老了。采集的这个页面已经不存在了，跳转到http://quote.eastmoney.com/center/gridlist.html#hs_a_board这个页面，这个
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 0: invalid start byte flask python
2022-04-04 11:44

回答 2 已采纳不是应该用二进制模式传吗 with open(image_loca_path,"rb") as f:
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequence nlp python
2023-02-12 23:40

回答 3 已采纳在第5行中，应将open函数的参数改为'rb'；在第13行中，应将print函数的参数改为len(ws.vocab)；在第14行中，应将open函数的参数改为'wb'；经过修改后，代码如下：
pyquery报错：UnicodeDecodeError: ‘gbk’ codec can’t decode byte
2020-12-22 03:50

翻译一下就是UnicodeDecodeError: ‘gbk’编解码器无法解码位置164中的字节0xa1:非法多字节序列。分析原因：这个HTML文件是utf-8格式的文件，存储是二进制数据，使用pyquery读取时是采用gbk进行解码！读到了...
django启动服务时报错 UnicodeDecodeError: 'utf8' codec can't decode byte 0xcb django python
2019-04-19 00:26

回答 2 已采纳代码含有中文，并且所在py文件开头未添加编码声明
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb0 in position 18: illegal multibyte sequence python
2021-12-27 10:34

回答 6 已采纳这个CSV到底时啥编码呀。发邮件给我看看。hndm@qq.com
python创建服务器时出现UnicodeDecodeError: python 服务器
2017-10-31 08:50

回答 2 已采纳编码问题，文件前面加上这个前缀# -*- coding: utf-8 -*-
一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte
2023-03-21 00:21

lyb06的博客使用这个参数，相当于我们就告诉了Python：我们这个文件是用utf-8编码的，你一会儿对这个文件解码的时候，就用utf-8解码，不要用gbk解码。 with open('test.txt', 'r', encoding='utf-8') as f: contents = f.read()...
python 3.8安装第三方包（pip install）报 unicodedecodeerror错误，请教！ python windows
2022-08-05 17:25

回答 1 已采纳把你的-r去掉
使用pip instal -r requirements.txt安装的时候报错如下： python 有问必答
2022-03-26 18:10

回答 2 已采纳把 requirements.txt 贴出来研究一下一般来说 requirements.txt 只包含库及版本试试修改下 requirements.txt pip
python2.7 编码解码问题 python
2022-06-10 16:07

回答 1 已采纳 cahrdet有置信度的，换句话说，它也不是百分百自信检查出来的一定正确
UnicodeDecodeError: ‘gbk‘ 编解码器无法解码字节xa中的内容
2023-09-08 00:42

心之向往！的博客 UnicodeDecodeError: ‘gbk’ 编解码器无法解码字节xa中的内容最近，您在使用Python 3阅读中文文档时遇到了一个UnicodeDecodeError错误，错误消息提示为"UnicodeDecodeError: ‘gbk’ codec can’t decode byte xa...
python3，Win环境下报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 2: invalid cont python
2021-08-08 21:50

回答 2 已采纳我来解释一下，你发送的内容是中文，所以用gbk替换掉utf-8，程序都改为gbk就好了如果明白了，点击右上角给个采纳哦~
UnicodeDecodeError: ‘gbk‘ codec can‘t decode
2021-01-19 10:39

qq_44871721的博客翻译：“gbk”编解码器无法解码位置16中的字节0x89:非法多字节序列我的原代码： import csv # 打开csv文件（newline是为了能正确解析文件中的换行符） with open('weather.csv', newline='') as file:
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 1898:illegal multibyte sequence
2023-11-15 14:58

铁岭铁头侠的博客文件读取错误 UnicodeDecodeError: 'gbk' 的解决办法
已解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position 2: illegal multibyte sequence
2023-04-04 10:53

桃花键神的博客编码问题通常在处理文本时会出现，特别是当使用不兼容的编码格式时。
已解决UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 20651: illegal multibyte seque
2022-07-08 06:53

袁袁袁袁满的博客已解决（Python读取文件编码报错）UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 20651: illegal multibyte sequence
python：读取文件内容解码编码错误 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xab in position 2: illegal
2020-11-30 15:44

邻家大爷的博客错误1：UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 2: illegal multibyte sequence 错误2：unicodeescape codec can t decode bytes in position 2-3: truncated UXXXXXXXX escape
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0:
2020-12-25 09:14

� 杰尼龟的博客解决方案 1.open(‘1.txt’,encoding=’gbk’)； encoding来改变编码 2.open(‘1.txt’,encoding=’gbk’，errors=‘ignore’)；忽略无法读的字符
PyMySQL安装问题解决办法-UnicodeDecodeError：gbk codec cannot decode byte 0xaf
2022-05-02 09:05

zjoy828的博客 PyMySQL安装问题解决办法-UnicodeDecodeError：gbk codec cannot decode byte 0xaf
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度