pycharm报错An error occurred: 'gb18030' codec can't decode byte 0x8b in position 1

pycharm报错An error occurred: 'gb18030' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

# -*- coding: utf-8 -*-
from urllib import request
from lxml import etree
import csv
def initUrs():
    urls = ['https://www.jjwxc.net/bookbase.php?fw0=0&fbsj0=0&xx0=0&mainview0=0&sd0=0&lx0=0&fg0=0&bq=-1&sortType=4&isfinish=0&collectiontypes=ors&searchkeywords=&page=3']
    return urls
def get(urls):
    for url in urls:
        try:
            data = request.urlopen(url).read().decode('gb18030')
            pData = parse(data)
            out(pData)
        except request.HTTPError as e:
            print(f"HTTP error: {e}")
        except request.URLError as e:
            print(f"URL error: {e}")
        except etree.XPathSyntaxError as e:
            print(f"XPath syntax error: {e}")
        except Exception as e:
            print(f"An error occurred: {e}")
def parse(data):
    pData = etree.HTML(data)
    items = pData.xpath('//tr')[1:]
    itemDatas = []
    for item in items:
        itemData = {}
        tds = item.xpath('./td')
        texts = tds[0].xpath('./a//text()')
        itemData['作者'] = '' if(len(texts) == 0) else texts[0]
        texts = tds[1].xpath('./a//text()')
        itemData['书名'] = '' if(len(texts) == 0) else texts[0]
        texts = tds[2].xpath('.//text()')
        itemData['类型'] = '' if len(texts) == 0 else texts[0].strip().replace('\n', '')
        # .replace('-', '') 去除 原创-纯爱-近代现代-剧情 中的-
        texts = tds[3].xpath('./font//text()')
        itemData['进度'] = '' if(len(texts) == 0) else texts[0]
        texts = tds[4].xpath('.//text()')
        itemData['字数'] = '' if(len(texts) == 0) else texts[0]
        texts = tds[5].xpath('.//text()')
        itemData['积分'] = '' if(len(texts) == 0) else texts[0]
        itemDatas.append(itemData)
    return itemDatas
# 输出并且保存为csv文档
def out(data):
    print(data)
    with open('xiaoshuo3.csv', 'w',encoding='gb18030',newline='') as f:
        csvf = csv.DictWriter(f, fieldnames=['作者', '书名', '类型','进度','字数','积分'])
        csvf.writeheader()
        csvf.writerows(data)
get(initUrs())

怎么解决

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-11-06 12:10

关注

【以下回答由 GPT 生成】

这个问题是因为使用gb18030编码解码字节时，出现了非法的多字节序列，在Python中可以使用utf-8编码替代gb18030进行解码。

以下是修改后的代码示例：

# -*- coding: utf-8 -*-
from urllib import request
from lxml import etree
import csv

def initUrs():
    urls = ['https://www.jjwxc.net/bookbase.php?fw0=0&fbsj0=0&xx0=0&mainview0=0&sd0=0&lx0=0&fg0=0&bq=-1&sortType=4&isfinish=0&collectiontypes=ors&searchkeywords=&page=3']
    return urls

def get(urls):
    for url in urls:
        try:
            data = request.urlopen(url).read().decode('utf-8')  # 将编码改为utf-8
            pData = parse(data)
            out(pData)
        except request.HTTPError as e:
            print(f"HTTP error: {e}")
        except request.URLError as e:
            print(f"URL error: {e}")
        except etree.XPathSyntaxError as e:
            print(f"XPath syntax error: {e}")
        except Exception as e:
            print(f"An error occurred: {e}")

def parse(data):
    pData = etree.HTML(data)
    items = pData.xpath('//tr')[1:]
    itemDatas = []
    for item in items:
        itemData = {}
        tds = item.xpath('./td')
        texts = tds[0].xpath('./a//text()')
        itemData['作者'] = '' if len(texts) == 0 else texts[0]
        texts = tds[1].xpath('./a//text()')
        itemData['书名'] = '' if len(texts) == 0 else texts[0]
        texts = tds[2].xpath('./span/text()')
        itemData['评分'] = '' if len(texts) == 0 else texts[0]
        itemDatas.append(itemData)
    return itemDatas

通过修改decode('gb18030')为decode('utf-8')，可以解决该问题。如果还有其他问题，请及时反馈，我会尽力提供帮助。

【相关推荐】

建议你看下这篇博客👉 ：pycharm 读取文件出现错误UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c in position 3: illegal multib

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

用pycharm报错 AttributeError: 'NoneType' object has no attribute 'shape' java pycharm
2021-10-07 21:16

回答 1 已采纳路径错误或者图片不存在或者参数错误
pycharm安装requests报错ERROR: Invalid requirement: 'ignored.' pycharm python 有问必答
2022-03-09 23:24

回答 2 已采纳你用cmd窗口输入pip install requests试试，先确保python的开发环境是否正常，然后在检测pycharm设置，打开settings看看你设置的python解释器对不对
Pycharm报错“ModuleNotFoundError: No module named 'core'” pycharm python
2023-02-23 17:40

回答 2 已采纳自定义的模块吧，代码不完整被人弄走了，一般git代码都这样，等着你给银子呢
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position 1: invalid start byte
2021-12-30 14:57

三月微风的博客爬取的url：https://www.douyu.com/ 当使用str(爬取的html字节码,encoding=‘utf-8’)进行一个编码转换的时候报UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x8b in position 1: invalid start byte这...
Pycharm seek() 中文报错，要怎么做才能不报错？ python
2021-06-29 19:56

回答 2 已采纳把utf-8改成这个 utf-8-sig 试试
pycharm右下角出现IDE error occured pycharm
2023-02-16 10:46

回答 1 已采纳在PyCharm中出现“IDE error occurred”的错误提示通常是由于程序崩溃或Python解释器故障引起的。以下是可能导致此错误的一些常见原因和解决方案： 1 问题插件：有些PyCha
新手第一次使用Pycharm，安装之后无法启动报错：java.lang.RuntimeException: Can't initialize filesystem storage ide python
2020-06-03 16:55

回答 1 已采纳卸载，重新安装一次，可能是权限有问题，也有可能是软件有问题吧。重新来一次。或者你可以看看这个视频，其中包括讲解如何安装pycharm的希望能对你有所帮助。 https://edu.51ct
python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x93 in position 6325:
2022-05-08 21:45

qq_46017026的博客在读取数据时，编码不同会导致报错 ...UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 6325: illegal multibyte sequence 解决方案为在读入数据路径时加入encoding='utf-8'。
使用pycharm时出现Error loading package list:Connect timed out，都没有出现manage repositories ide pycharm python 有问必答
2023-03-03 14:59

回答 6 已采纳如果在PyCharm中没有出现"Manage Repositories"选项，则可能是该选项被隐藏了。您可以尝试使用以下方法切换PyCharm的镜像源：打开PyCharm设置，选择"Appearan
Python报错问题：SyntaxError: unknown parsing error。在练习有关csv数据下载 python 有问必答
2022-02-06 16:53

回答 2 已采纳 utf-16和utf-8不是同一种编码，改成utf-16编码来读取 import csv filename = 'sw_2022.csv' with open(filename, 'r', enco
pycharm中出现NameError: name 'response' is not defined pycharm python
2022-03-03 23:42

回答 1 已采纳你是不是少写了一句response=requests.get(url=url, params=param)
Python读取文本出现报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x93 in...
2023-03-08 19:59

rookieyx的博客 eg: 本意是想通过下列方法求出csv文件的总行数 with open('data.csv', 'r') as f: print(len(f.readlines())) 结果出现以下报错： UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 7891: ...
pycharm报错如下 pycharm python tensorflow
2022-07-13 22:17

回答 5 已采纳版本环境什么的都没啥问题的话，如果是复现别人的代码，看看是不是有原作者的文档没有放在同一个目录下
Python报错:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c in position 20: illegal multibyte...
2022-04-12 17:01

An efforter的博客 UnicodeDecodeError: 'gbk' codec can't decode byte 0x8c in position 20: illegal multibyte sequence
解决Python报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte
2019-03-19 15:14

zhangpeterx的博客解决Python报错–UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 658: illegal multibyte sequence 今天在anaconda上新建一个python3.6环境后，使用时报错了： (base) C:\Users\peter>...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月6日

悬赏问题

¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错
¥15 模电中二极管，三极管和电容的应用
¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
¥15 气象网格数据与卫星轨道数据如何匹配
¥100 java ee ssm项目悬赏，感兴趣直接联系我
¥15 微软账户问题不小心注销了好像
¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused

pycharm报错An error occurred: 'gb18030' codec can't decode byte 0x8b in position 1

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新