怎么解决python爬虫写入txt文件时出现的中文乱码问题

import requests
import re
from lxml import html

class MyCrawler:
    def __init__(self, filename):
        self.filename = filename
        self.headers =  {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        }
    
    def download(self, url):
        r = requests.get(url, headers=self.headers)
        return r.text
    
    def extract(self, content, pattern):
        result = re.findall(pattern, content)
        return result
    
    def save(self, info):
        with open(self.filename, 'w', encoding='utf-8') as f:
            for item in info:
                f.write('|||'.join(item) + '\n')
    
    def crawl(self, url, pattern, headers=None):
        if headers:
            self.headers.update(headers)
        content = self.download(url)
        info = self.extract(content, pattern)
        self.save(info)
        
b_crawler = MyCrawler('douban.txt')
b_crawler.crawl(
    'http://lyjs.eastday.com/',
    'n\d+\/index.html"\starget="_blank">(.*?)<\/a></span></div><div\sclass="level">(.*?)<\/div>'
)
with open('douban.txt','r',encoding='utf-8') as f:
    lines=f.read()
    for line in lines.split('\n'):
        print(line)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-30 23:34
关注
在download函数代码中添加一行：r.encoding=r.apparent_encoding即可。

def download(self, url): r = requests.get(url, headers=self.headers) r.encoding=r.apparent_encoding return r.text

如有帮助，请点采纳，谢谢。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

怎么解决python爬虫写入txt文件时出现的中文乱码问题 python 有问必答
2021-05-30 23:14

回答 2 已采纳在download函数代码中添加一行：r.encoding=r.apparent_encoding即可。 def download(self, url): r = requests.get
python读txt文件中文乱码 python 有问必答
2021-06-02 12:53

回答 5 已采纳把GBK改成UTF-8试一下，还有就是你的txt文档的编码格式不对。
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
python 爬虫写入文件中文乱码问题解决
2019-07-13 15:45

阿雷由的博客解决python 写入文件中文乱码问题问题现象：通过爬虫爬取百度内容，将采集到的url 写入文件的时候发现文件乱码【文件格式csv 】分析过程根据网上的一些建议，将文件的打开编码改为 utf-8 ，结果跟本不起作用...
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
使用python外部插件pycha时，出现中文乱码，有没有解决方案？ python
2017-12-15 04:09

回答 2 已采纳你可以换用 Matplotlib。
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv
2021-09-20 11:13

Griffy650的博客 python爬虫数据写入csv文件中文乱码，用’utf-8‘在pycharm中打开文件没有问题，但是用excel打开却出现了问题，以下为解决方法。（最近在练习爬虫，这个博文是对自己学习的记录和分享，如果有问题，非常感谢各路...
python爬虫中网页出现乱码如何解决？ python
2021-09-21 22:16

回答 1 已采纳 request.encoding = request.apparent_encoding
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
已解决Python爬虫网页中文乱码问题
2022-11-11 21:11

袁袁袁袁满的博客已解决Python爬虫网页中文乱码问题
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫写入txt文件
2021-12-31 00:16

s122432432的博客 like Gecko) Chrome/96.0.4664.110 Safari/537.36'} self.url='http://ewenyan.com/' #爬取数据 def get_data(self): response=requests.get(self.url,headers=self.header) #解决gb2312乱码 response....
Python爬虫笔记——解决python 写入文件中文乱码问题
2020-07-07 10:28

Fo*(Bi)的博客 python 爬虫写入文件中文乱码问题解决分析过程根据网上的一些建议，将文件的打开编码改为 utf-8 ，结果跟本不起作用奇怪的是用notepad 打开 csv 文件竟然显示正常，看来是excel 默认编码的问题解决思路：修改...
没有解决我的问题, 去提问

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

怎么解决python爬虫写入txt文件时出现的中文乱码问题

2条回答 默认 最新

悬赏问题

2条回答默认最新