python3 爬网络小说编码gbk,utf-8均报错

很简单的爬取一个小说，但是编码遇到报错，gbk，utf-8都不行。

-- coding: utf-8 --

import urllib.request
import re
import sys
import os
import urllib
from bs4 import BeautifulSoup
from urllib import request

#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码

def getHtml(weburl):
webheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
webheaders={
'Referer':'http://www.biqukan.cc/book/20461/12592815.html',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'
}
req = urllib.request.Request(url=weburl, headers=webheaders)
page = urllib.request.urlopen(req)
html = page.read()

return html.decode('gbk')

def gettext(html):
soup = BeautifulSoup(html, "lxml")

content = soup.find(class_='panel-body',id='htmlContent')
txt=content.get_text()

with open('D:\\test.txt','a') as f:
    f.write(txt)

weburl="http://www.biqukan.cc/book/20461/12592815.html"
html=getHtml(weburl)#获取该网址网页详细信息，得到的html就是网页的源代码
gettext(html)
错误信息：
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 75: il
legal multibyte sequence

还有：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 116: invali
d start byte

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-11-14 02:02
关注
用requests模块decode("gbk")没有乱码

import requests url = "http://www.biqukan.cc/book/20461/12592815.html" headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36', } html=requests.get(url=url,headers=headers,verify=False).content.decode("gbk") print(html)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

导入数据，并且以utf-8为编码格式，但是以上代码报错，求解答 json python
2023-02-03 14:31

回答 4 已采纳 “该回答引用ChatGPT” 可参考下面的解决方案，还请测试代码的可用性，如果可行，还请点击，采纳，感谢支持！ import json import pandas as pd import plo
为什么我设置了utf-8 还是报错(标签-ar|关键词-cte) python
2023-03-24 16:29

回答 3 已采纳 response.encoding = 'utf-8' 换成如下代码看看： response.encoding = response.apparent_encoding
python如何实现批量修改文件编码为utf8 python
2018-03-18 11:09

回答 5 已采纳此处用的是python2，main函数为主函数，请采纳，如有疑问，请回复。 ``` # coding = utf-8 import os path = r"D:\课件临时\2" d
Python:将utf-8格式的文件转换成gbk格式的文件
2022-03-09 00:10

量慧实工作室LHStudio的博客需求：将utf-8格式的文件转换成gbk格式的文件实现代码如下： 1 2 3 4 5 6 7 8 9 10 11 defReadFile(filePath,encoding="utf-8"): withcodecs.open...
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python3 word="0"的编码如何变为“utf-8” python
2019-09-25 13:53

回答 2 已采纳话说，你为什么要编码后去匹配字符串啊？直接以str类型来匹配有问题吗？ # -*- coding: UTF-8 -*- from docx import Document import re
怎么解决python使用utf-8和gbk仍然乱码的问题？ python
2021-07-27 18:11

回答 3 已采纳在获取页面源码后，进行转码。 res = requests.get(url,headers=headers) new_res = res.text.encode('iso-8859-1').decod
Python出现报错：SyntaxError: Non-UTF-8 code starting with ‘\xa1‘ in file...
2021-11-09 21:44

duo le的博客在代码首行添加：# coding = utf-8，以下是我的运行结果：很明显，这个方法没有解决我的问题。方法二：在代码首行添加：# coding = gbk，以下是我的运行结果：好的，咱接着往下看。方法三：在代码...
Python以'rb'的形式打开文件，无法encoding = 'UTF-8' python 有问必答
2021-09-18 15:46

回答 2 已采纳读取文件写'r'就可以,'rb'是以二进制形式读入将其改为encoding='bytes'即可(资料来源见评论)有帮助望采纳
python 安装好了，但是pip --version 报错 python 人工智能有问必答
2021-11-04 23:11

回答 3 已采纳你不要在python交互模式窗口 >>>提示符下输入 pip --version 如果是处在python交互模式>>>提示符下先输入 exit() 从python交
jupyter中加上 sys.setdefaultencoding('utf-8') 后就不能输出了 jupyter python
2016-11-21 03:32

回答 4 已采纳这个问题已经解决了，参考了http://www.2cto.com/kf/201411/355112.html 主要是reload(sys)的时候，sys.stdout 这个参数被重置为了ipytho
Python出现报错：SyntaxError Non-UTF-8 code starting with ‘xa1‘ in file
2022-06-10 21:33

小芬熊的博客方法一：在代码首行添加：# coding = utf-8，以下是我的运行结果：很明显，这个方法没有解决我的问题。方法二：在代码首行添加：# coding = gbk，以下是我的运行结果：好的，咱接着往下看。方法三：在代码首行添加：...
python默认编码格式已经是utf-8了，为什么open读取文件时还会出现乱码问题 python 有问必答
2021-08-17 16:12

回答 2 已采纳你输出下myfile这个对象，看看实际打开时使用的编码是什么。肯定不是utf-8
python中字符编码:coding utf-8, unicde, defaultencoding, UnicodeDecodeError, UnicodeEncodeError
2018-10-23 11:13

bitcarmanlee的博客不巧今天又遇到了同样的状况，于是痛下决心，一定要把python中的字符编码问题搞清楚。 2.字节与字符计算机存储的任何数据，包括各种文本、图片、音视频文件等等，实际上都是一串二进制数字...
flask加载html文件中文乱码：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd6 in position 88: invalid c
2022-08-18 10:49

Confidence ...的博客 flask加载html文件中文乱码：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 88: invalid continuation byte
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

python3 爬网络小说 编码gbk,utf-8均报错

-*- coding: utf-8 -*-

2条回答 默认 最新

悬赏问题

python3 爬网络小说编码gbk,utf-8均报错

-- coding: utf-8 --

2条回答默认最新