怎么解决python爬虫写入txt文件时出现的中文乱码问题

import requests
import re
from lxml import html

class MyCrawler:
    def __init__(self, filename):
        self.filename = filename
        self.headers =  {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        }
    
    def download(self, url):
        r = requests.get(url, headers=self.headers)
        return r.text
    
    def extract(self, content, pattern):
        result = re.findall(pattern, content)
        return result
    
    def save(self, info):
        with open(self.filename, 'w', encoding='utf-8') as f:
            for item in info:
                f.write('|||'.join(item) + '\n')
    
    def crawl(self, url, pattern, headers=None):
        if headers:
            self.headers.update(headers)
        content = self.download(url)
        info = self.extract(content, pattern)
        self.save(info)
        
b_crawler = MyCrawler('douban.txt')
b_crawler.crawl(
    'http://lyjs.eastday.com/',
    'n\d+\/index.html"\starget="_blank">(.*?)<\/a></span></div><div\sclass="level">(.*?)<\/div>'
)
with open('douban.txt','r',encoding='utf-8') as f:
    lines=f.read()
    for line in lines.split('\n'):
        print(line)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-30 23:34
关注
在download函数代码中添加一行：r.encoding=r.apparent_encoding即可。

def download(self, url): r = requests.get(url, headers=self.headers) r.encoding=r.apparent_encoding return r.text

如有帮助，请点采纳，谢谢。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python 爬虫写入文件中文乱码问题解决
2019-07-13 15:45

阿雷由的博客解决python 写入文件中文乱码问题问题现象：通过爬虫爬取百度内容，将采集到的url 写入文件的时候发现文件乱码【文件格式csv 】分析过程根据网上的一些建议，将文件的打开编码改为 utf-8 ，结果跟本不起作用...
Python爬虫基于lxml解决数据编码乱码问题
2020-12-17 07:25

此外，对于Python 2和3之间的编码差异，Python 2中处理中文文件名的编码问题可能有所不同，而在Python 3中，由于默认采用UTF-8编码，因此在读写文件时更需要注意文件编码。如果遇到CSV文件写入乱码，可以使用`utf-8-...
Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv
2021-09-20 11:13

Griffy650的博客 python爬虫数据写入csv文件中文乱码，用’utf-8‘在pycharm中打开文件没有问题，但是用excel打开却出现了问题，以下为解决方法。（最近在练习爬虫，这个博文是对自己学习的记录和分享，如果有问题，非常感谢各路...
python爬虫 中文乱码 解决方案
2024-02-04 15:08

gsxb1的博客返回数据出现中文乱码，在使用Python练习网络爬虫技术的过程中，几乎比可避免，本文将使用chardet库，只通过代码的形式来解决这一难题的。
解决python3爬虫无法显示中文的问题
2020-09-20 15:22

在使用Python 3进行网络爬虫时，可能会遇到一个问题，即爬取的数据中包含中文字符，但在保存或显示时无法正确显示，出现了类似“\xe4\xba\xba\xef\xbc\x8c\xe6”这样的乱码。这通常是由于字符编码不匹配引起的。中文...
已解决Python爬虫网页中文乱码问题
2022-11-11 21:11

小满大王i的博客已解决Python爬虫网页中文乱码问题
Python网络爬虫中的编码乱码如何解决
2025-01-23 13:35

PellyKoo的博客开发一个Python爬虫程序，需要爬取某电商网站的商品信息（包括商品名称、价格、评论等），并将数据保存为CSV文件。项目使用requests库进行网页请求，Beautiful Soup进行解析，需要处理大量包含中文、emoji等特殊字符...
Python爬虫笔记——解决python 写入文件中文乱码问题
2020-07-07 10:28

Fo*(Bi)的博客 python 爬虫写入文件中文乱码问题解决分析过程根据网上的一些建议，将文件的打开编码改为 utf-8 ，结果跟本不起作用奇怪的是用notepad 打开 csv 文件竟然显示正常，看来是excel 默认编码的问题解决思路：修改...
python爬虫写入txt文件
2021-12-31 00:16

s122432432的博客 like Gecko) Chrome/96.0.4664.110 Safari/537.36'} self.url='http://ewenyan.com/' #爬取数据 def get_data(self): response=requests.get(self.url,headers=self.header) #解决gb2312乱码 response....
Python爬虫乱码问题
2024-03-26 21:11

ReverSe0930的博客 3with open('poems.txt','w',encoding='UTF-8') as f:写入的时候encoding='UTF-8'配置文件的默认配置。2、设定为默认编码类型为所存储内容，response.encoding = 'UTF-8'1、比对html>head>meta中的charset设定的编码...
没有解决我的问题, 去提问

怎么解决python爬虫写入txt文件时出现的中文乱码问题

2条回答 默认 最新

2条回答默认最新