UnicodeDecodeError：“gbk”编解码器问题

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

# -*- coding: utf-8 -*-
"""
Tushare社区股票数据抓取
"""

import urllib.request
import re
import pandas as pd
import pymysql
import os

def getHtml(url):
    html = urllib.request.urlopen(url).read()
    html = html.decode('gbk')
    return html

def getStackCode(html):
    s = r'<li><a target="_blank" href="http://quote.eastmoney.com/\S\S(.*?).html">'
    pat = re.compile(s)
    code = pat.findall(html)
    return code

Url = 'http://quote.eastmoney.com/stocklist.html'
filepath = 'C:\\data\\'
code = getStackCode(getHtml(Url))
CodeList = []
for item in code:
    if item[0]=='6':
        CodeList.append(item)
for code in CodeList:
    print('正在获取股票%s数据'%code)
    url = 'http://quotes.money.163.com/service/chddata.html?code=0'+code+\
        '&end=20161231&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP'
    urllib.request.urlretrieve(url, filepath+code+'.csv')

运行结果及报错内容

Traceback (most recent call last):
File "C:/Python/WorkSpace/py_case/股票数据抓取.py", line 30, in
code = getStackCode(getHtml(Url))
File "C:/Python/WorkSpace/py_case/股票数据抓取.py", line 17, in getHtml
html = html.decode('gbk')
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 139: illegal multibyte sequence

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-30 09:33
关注
题主这个代码从哪搞来的，应该好老了。采集的这个页面已经不存在了，跳转
到http://quote.eastmoney.com/center/gridlist.html#hs_a_board
这个页面，这个页面用的js加载的数据，接口是
http://5.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124009030612137700134_1638235189055&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1638235189056

注意是jsonp数据，要处理过才能获取到，不过可以去掉cb=jQuery1124009030612137700134_1638235189055回调参数后返回json数据直接用

然后直接请求这个接口就行，接口包含了下面的信息，如果要其他信息题主自己通过浏览器开发工具找相关的接口来请求

示例代码如下

import requests headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36' } url='http://5.push2.eastmoney.com/api/qt/clist/get?pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1638235189056' data=requests.get(url,headers=headers).json() for item in data['data']['diff']: print(item['f12'],item['f14'])

有帮助麻烦点下【采纳该答案】，谢谢~~有其他问题可以继续交流~
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

pyquery报错：UnicodeDecodeError: ‘gbk’ codec can’t decode byte
2020-12-22 03:50

当遇到UTF-8编码的文件时，如果使用GBK解码，就会出现“非法多字节序列”的错误，因为UTF-8的某些字节序列在GBK中是无效的。要解决这个问题，我们可以采取以下步骤： 1. **明确文件编码**：首先，确保你确切知道...
UnicodeDecodeError: ‘gbk‘ 编解码器无法解码字节xa中的内容
2023-09-08 00:42

心之向往！的博客 UnicodeDecodeError: ‘gbk’ 编解码器无法解码字节xa中的内容最近，您在使用Python 3阅读中文文档时遇到了一个UnicodeDecodeError错误，错误消息提示为"UnicodeDecodeError: ‘gbk’ codec can’t decode byte xa...
一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte
2023-03-21 00:21

lyb06的博客使用这个参数，相当于我们就告诉了Python：我们这个文件是用utf-8编码的，你一会儿对这个文件解码的时候，就用utf-8解码，不要用gbk解码。 with open('test.txt', 'r', encoding='utf-8') as f: contents = f.read()...
python读取文件时报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 11: illegal multiby
2024-08-21 21:49

一名在九月份找工作的测试员的博客报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 11: illegal multiby。Unicode解码错误：“gbk”编解码器无法解码位置2的字节0xa0：不完整的多字节序列。
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 1898:illegal multibyte sequence
2023-11-15 14:58

铁岭铁头侠的博客文件读取错误 UnicodeDecodeError: 'gbk' 的解决办法
【Python】成功解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 45: illegal multibyte
2024-06-13 20:14

高斯小哥的博客 **【Python攻略】告别UnicodeDecodeError，解码GBK不是梦！** 遭遇UnicodeDecodeError，你是否感到头大？不用担心，本文带你轻松...#Python编码问题 #UnicodeDecodeError #GBK解码 #字符编码理解 #编码规范 #最佳实践
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position 24: illegal multibyte sequence
2023-12-12 00:06

堂堂客的博客 win 10 UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 24: illegal multibyte sequence pip install 包的时候出现上述错误，发生在c盘的temp临时文件中，因为是临时的，所以找不到此文件 ...
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 0: illegal multibyte sequence
2023-11-03 15:24

fortune56的博客在unity中运行python的gbk解码问题
UnicodeDecodeError: ‘gbk‘ codec can‘t decode
2021-01-19 10:39

qq_44871721的博客翻译：“gbk”编解码器无法解码位置16中的字节0x89:非法多字节序列我的原代码： import csv # 打开csv文件（newline是为了能正确解析文件中的换行符） with open('weather.csv', newline='') as file:
python读取文件报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 14945
2024-04-11 14:37

Peter-Lu的博客如果文件包含的是二进制数据而不是文本数据，可以使用二进制模式（‘rb’）打开文件，并在读取时避免解码。：二进制模式下的文件读写操作更加高效，因为不需要进行字符解码和编码的转换，直接操作原始字节数据。：二...
Python编程之UnicodeDecodeError问题解决方案
2025-09-16 11:57

十一剑的CS_DN博客的博客摘要：本文分析了Python中常见的UnicodeDecodeError问题，指出其核心是编码不匹配导致。当系统默认使用GBK编码读取UTF-8文件时，会出现解码错误。提供了三种解决方案：推荐在open()中明确指定encoding='utf-8'；或以...
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0:
2020-12-25 09:14

� 杰尼龟的博客解决方案 1.open(‘1.txt’,encoding=’gbk’)； encoding来改变编码 2.open(‘1.txt’,encoding=’gbk’，errors=‘ignore’)；忽略无法读的字符
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9a in position 27: illegal multibyte sequence怎么办
2024-02-04 16:10

嘬一口冰美式的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 27: illegal multibyte sequence怎么解决。
python：读取文件内容解码编码错误 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xab in position 2: illegal
2020-11-30 15:44

邻家大爷的博客错误1：UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 2: illegal multibyte sequence 错误2：unicodeescape codec can t decode bytes in position 2-3: truncated UXXXXXXXX escape
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 2317: illegal multibyte sequence
2025-04-24 10:44

detayun的博客这个错误是由于JSON文件在读取时使用了错误的编码格式（gbk）导致的。JSON文件通常使用UTF-8编码，而你的系统默认使用了gbk编码来解码文件。
【yolo系列报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x98 in position 1093】
2023-08-11 16:43

落叶霜霜的博客这应该是windows特有的问题，因为win的默认编码方式为utf-8，而Python读入文本文件的默认编码方式为gbk。直接下载的源码一般没有任何问题，需要修改系统变量的python读取格式。直接修改yolov7的yaml为下面，粘贴即可...
已解决UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 20651: illegal multibyte seque
2022-07-08 06:53

小满大王i的博客已解决（Python读取文件编码报错）UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 20651: illegal multibyte sequence
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal mu
2019-09-17 20:43

qq_36346625的博客今天看慕课《Python语言程序设计》（北京理工大学嵩天）的时候，PPT里有段代码，照着敲在自己电脑上运行时，出了问题。源代码如下： #txt_poen.py 文本形式打开一个文件 #f.txt 和 txt_poen.py 共同保存在同一个...
UnicodeDecodeError:python的常见编码问题简单处理
2019-04-22 13:35

浅汐丶沐雪的博客使用python的时候经常会遇见各种UnicodeDecodeError报错，但是去百度的时候，大佬们动不动就是说py不同版本默认编码不同导致错误，然后让再写的脚本里添加注明编码类型的语句。但是python并不是只写脚本就能用的，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日