储存txt文件时报错'gbk' codec can't encode character '\u200b' in position 164: illegal multibyte sequence

问题遇到的现象和发生背景

爬虫信息储存txt文件时报错'gbk' codec can't encode character '\u200b' in position 164: illegal multibyte sequence

用代码块功能插入代码，请勿粘贴截图

import requests
import re
import time
import csv
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0',
    'Cookie': 'BIDUPSID=A87FDC113E9F5C879F4BEA4D7D6F5A72; PSTM=1662346944; BD_UPN=12314753; newlogin=1; BDUSS=40SGNtOGUzSFh2NHFTSi0zZW9Pa0pIeE5NUnB6Ymt0RDdIUGdqVTVDaUpWMTlqRVFBQUFBJCQAAAAAAAAAAAEAAACJedgyQUHHo8POAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAInKN2OJyjdjSU; BDUSS_BFESS=40SGNtOGUzSFh2NHFTSi0zZW9Pa0pIeE5NUnB6Ymt0RDdIUGdqVTVDaUpWMTlqRVFBQUFBJCQAAAAAAAAAAAEAAACJedgyQUHHo8POAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAInKN2OJyjdjSU; BAIDUID=A87FDC113E9F5C878BD59310E3A6E04A:SL=0:NR=10:FG=1; ispeed_lsm=2; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; sug=3; sugstore=1; ORIGIN=0; bdime=0; BAIDUID_BFESS=A87FDC113E9F5C878BD59310E3A6E04A:SL=0:NR=10:FG=1; Hm_lvt_aec699bb6442ba076c8981c6dc490771=1665671890,1665745286; Hm_lpvt_aec699bb6442ba076c8981c6dc490771=1665745286; delPer=0; BD_CK_SAM=1; PSINO=5; BA_HECTOR=212024a12ha5a0010h84886k1hkigg61a; ZFY=:BKhQhsIdmwipwi9PbQ4h5ytjGOPXDsCSQfVRTuUcXVE:C; baikeVisitId=af3dc6a3-770a-4941-ad83-ab9dd0ce59ae; COOKIE_SESSION=129_0_1_0_8_1_1_0_1_1_0_0_129_0_1_0_1665745416_0_1665745415%7C5%230_0_1665745415%7C1; H_PS_645EC=9813r29D6TCK%2BXRVz5TlZby%2BLvNs6AnvuSOkr76NyC4OTdjCvtetKIWOu%2FPQSLqexz77iV8tlV4L; BDRCVFR[C0p6oIjvx-c]=mk3SLVN4HKm; H_PS_PSSID=37568_36551_37551_37358_37396_36807_37405_36789_37538_37497_37508_22159_37570; BDSVRTM=955'
}
url = 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=阿里巴巴'
res = requests.get(url, headers=headers)
res.encoding = 'utf-8'

# 爬取一个公司的多页
def sduxsyg(page):
    if page==0:
        url = 'https://www.view.sdu.edu.cn/xsyg.htm'
    else:
        url = 'https://www.view.sdu.edu.cn/xsyg/'+ str(177-page)+'.htm'

    res = requests.get(url, headers=headers)
    res.encoding = 'utf-8'
    res=res.text
    # 其他相关爬虫代码
    p_title = '.*?'
    title = re.findall(p_title, res, re.S)
    print (title)
    p_href = '.*?<a href="(.*?)" target'
    href = re.findall(p_href, res, re.S)
    print (href)
    p_date = '<dl>.*?<a href=.*?<dd class="dd1">(.*?)</dd>'
    date = re.findall(p_date, res, re.S)
    print (date)
    p_address = '<dl>.*?<a href=.*?<dd class="dd2">(.*?)</dd>'
    address = re.findall(p_address, res, re.S)
    print (address)

    data_list=list(zip(title, href, date, address))
    print(data_list)
    file1 = open('./学术预告.txt','a')  # 如果把a改成w的话，则每次生成txt的时候都会把原来的txt清空；如果出现乱码问题，则设置encoding参数为utf-8，写成file1 = open('E:\\数据挖掘报告.txt', 'a'，encoding='utf-8')

    for i in range(len(title)):  # range(len(title)),这里因为知道len(title) = 10，所以也可以写成for i in range(10)
        title[i] = title[i].strip()  # strip()函数用来取消字符串两端的换行或者空格，不过这里好像不太需要了
        title[i] = title[i].replace('\xa0', '')  #\xa0是不间断空白符 我们通常所用的空格是\x20，是在标准ASCII可见字符0x20~0x7e范围内。而\xa0属于latin1（ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。latin1字符集向下兼容ASCII（0x20~0x7e）。通常我们见到的字符多数是latin1的，比如在MySQL数据库中
        title[i] = title[i].replace('\u200b', '')  # \u200b 是Unicode(万国码)中的零宽度字符,可以理解为不可见字符
        print('第'+str(page+1)+'页第'+str(i+1)+'条学术报告：'+'\t'+title[i]+'\t'+href[i]+'\t'+date[i]+'\t'+address[i]+'\n')
        file1.write('第'+str(page+1)+'页第'+str(i+1)+'条学术报告：'+'\t'+title[i]+'\t'+href[i]+'\t'+date[i]+'\t'+address[i]+'\n')
    file1.close()

    # data_list=[]
    # for a,b,c,d in zip(title, href, date, address):
    #     x={}
    #     x['标题']=a
    #     x['链接']=b
    #     x['日期']=c
    #     x['地址']=d
    #     data_list.append(x)
    # with open('./学术预告.csv','a', newline='') as f:  # 如果把a改成w的话，则每次生成txt的时候都会把原来的txt清空；如果出现乱码问题，则设置encoding参数为utf-8.
    #     write = csv.writer(f)  # 创建writer对象
    #     write.writerow(['标题','链接','日期','地址'] )
    #     for info in data_list:
    #         write.writerow(info.values())
    #



for i in range(10):  # 这里一共爬取了10页
    sduxsyg(i)  # i是从0开始的序号，所以要写成i+1表示第几页
    print('第' + str(i+1) + '页爬取成功')  # i是从0开始的序号，所以写i+1
    time.sleep(3)  # 不要爬太快

运行结果及报错内容

我想要达到的结果

想知道为啥错了，该怎么修改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
游一游走一走 2022-10-15 11:16
关注
Py文件头加个试试

# coding=utf-8

打开文件加

file1 = open('./学术预告.txt','a',encoding='utf-8')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

储存txt文件时报错'gbk' codec can't encode character '\u200b' in position 164: illegal multibyte sequence python
2022-10-15 11:08

回答 2 已采纳 Py文件头加个试试 # coding=utf-8 打开文件加 file1 = open('./学术预告.txt','a',encoding='utf-8')
UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 1140 python
2019-08-29 16:05

回答 3 已采纳使用encoding='gb18030' 打开要写的文件就可以。'\xa9'是一个gb字符。![图片说明](https://img-ask.csdn.net/upload/201908/31/1567
python报错：UnicodeEncodeError: 'ascii' codec can't encode character '**' in position 32怎么解决？ python
2020-02-23 12:07

回答 3 已采纳我看了你的网站 ``` ``` ![图片说明](https://img-ask.csdn.net/upload/202002/23/1582431537_739595.png)
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u200b’ in position 80: illegal multibyte se
2021-01-10 06:20

「已注销」的博客 UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u200b’ in position 80: illegal multibyte sequence 写入文件时，python报错： f.write(js) UnicodeEncodeError: 'gbk' codec can't encode ...
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 42-43: python
2022-06-23 13:56

回答 2 已采纳打开你的浏览器，复制User-Agent后面的
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 0: invalid start byte flask python
2022-04-04 11:44

回答 2 已采纳不是应该用二进制模式传吗 with open(image_loca_path,"rb") as f:
UnicodeEncodeError: 'ascii' codec can't encode linux python
2019-08-29 11:02

回答 1 已采纳在linux系统中输入export LANG=en_US.UTF-8，将编码设置为这个就不在出错了之前的编码为LANG=zh_CN.UTF-8 可以通过locale查询Linux系统的编码方式
‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 89909: illegal multibyte sequence
2020-08-01 12:05

jiangtao@up的博客 ‘gbk’ codec can’t encode character ‘\u200b’ in position 86562: illegal multibyte sequence 这些都是不见字符解决方法1 使用utf-8编码但是中文字符不能直观看出解决方法2 将报错出现的不见字符.
python3遇到 ascii' codec can't encode character网上找了半天也没法解决 python 有问必答
2022-03-05 20:05

回答 2 已采纳改英文状态下的问号，一看就是中文的，而且逻辑有其他问题可以继续交流~
关于requests.get获取网页信息的一个编码问题 python 爬虫
2023-02-09 21:24

回答 2 已采纳题主，编码是有区别的，参考：https://www.51cto.com/article/687483.html如有疑问，可以继续与我联系。
爬虫数据无法存入文件TypeError: utf_8_encode() argument 1 must be str, not dict python 爬虫
2022-10-20 17:16

回答 1 已采纳 encode需要一个字符串你给了字典啊，把字典 json.dumps(你的字典)一下
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte s
2016-10-09 09:22

ejmw342的博客 UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence 【解决过程】 1.Python的编码问题，GB18030，UTF-8，Unicode等问题，...
pycharm时间错误问题 python
2021-02-25 23:00

回答 3 已采纳根据错误可以看出，没有执行成功的原因是"%Y年%m月%d日 %H时%M分%S秒"中包含了中文，中文没有转化为unicode编码失败的。先转为uncode编码执行，执行完后转为utf-8显示 dt
UnicodeEncodeError: 'gbk' codec can't encode character '\udcc3' in position 3: illegal multibyte seq
2019-03-14 12:57

prolrj2015的博客 python3: UnicodeEncodeError：’utf-8’/'gbk’编解码器无法编码：不允许代理问题描述：（1）例如下代码 for root, dirs, files in ...UnicodeEncodeError: 'utf-8' codec can't encode character '\udcc3' in p...
Python问题解决8：爬虫报错UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u200b‘ in position
2021-06-13 11:29

简时刻的博客问题描述使用python爬虫时，报错：UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 2: illegal multibyte sequence 问题原因 'gbk' 编解码器无法在位置编码字符 '\u200b' 问题解决 ...
Python读取中文txt文件错误：UnicodeEncodeError: 'gbk' codec can't encode character
2021-05-29 07:15

morein2008的博客 1 with open(file,'r') as f: 2 line=f.readline() 3...print str(i)+": "+line这一行报错： UnicodeEncodeError: 'gbk' codec can't encode character u'\u200b' in position 99: illegal multibyte sequence 上网查到...
Python : UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position
2019-05-09 21:54

_七七的博客 Python:网络写入到本地文件时遇到这种...UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u200b’ in position 解决方法： encoding'utf-8' with open(r"xx","w",encoding'utf-8') as f: xxx ...
python 报错：UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u200b‘ in position 79
2023-07-05 14:28

「已注销」的博客 python 报错：UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 79: illegal multibyte sequence
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家修改了标签 10月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月15日

悬赏问题

¥15 echarts动画效果失效的问题。官网下载的例子。
¥60 许可证msc licensing软件报错显示已有相同版本软件，但是下一步显示无法读取日志目录。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加

储存txt文件时报错'gbk' codec can't encode character '\u200b' in position 164: illegal multibyte sequence

问题遇到的现象和发生背景

用代码块功能插入代码，请勿粘贴截图

运行结果及报错内容

我想要达到的结果

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新