用xpath爬取中文后，保存到txt文档中，中文成了编号，英文不受影响。


import json
from lxml import etree

html = """
网页代码
"""
parse_html = etree.HTML(html)
ls = []
i = 1
while i <= 10:
    index = parse_html.xpath("/html/body/li/div/div[%d]/div[2]/div/div[2]/a/i[1]/text()" % i)
    ls.append(index)
    i += 1
print(ls)

with open('wordcloud.txt', 'w', encoding='utf-8') as f:
    f.write(json.dumps(ls))

# Now read the file back into a Python list object
with open('wordcloud.txt', 'r', encoding='utf-8') as f:
    ls = json.loads(f.read())

这是导入txt的内容
[["\u6813Q\uff08\u6211\u771f\u7684\u4f1a\u8c22\uff09"], ["PUA\uff08CPU/KTV/ICU/PPT\uff09"],
有没有人能帮帮我

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
heart_6662 2023-01-14 09:01
关注
望采纳！！！点击回答右侧采纳即可！！！
这可能是由于爬取到的中文是经过编码的，在保存到txt文档中时需要解码。在保存之前，可以使用Python中的解码函数（如"decode()"）将编码的中文解码成正常的中文。

另外，还需要确保在保存txt文档时使用的编码方式与解码时使用的编码方式相同，否则会导致乱码。

可以使用open（）函数打开txt文档并写入，在写入前可以使用decode()函数解码，在open（）函数中使用'w',encoding='utf-8' 或 'gbk' 等编码方式来保证文件正常保存。

with open('text.txt', 'w',encoding='utf-8') as f: content = "爬取到的中文" content = content.decode('编码方式') f.write(content)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python使用xpath爬取网站数据
2025-04-03 17:28

在HTML文档中，每个元素都可以看作是一个节点，我们可以通过XPath表达式快速定位到具有特定特征的节点。为了实现网站数据的爬取，我们需要使用Python的第三方库，如lxml。lxml是一个高性能的XML和HTML解析库，它...
Python爬取京东商品信息
2020-10-30 20:56

别叫我名字20的博客 *使用Python爬取京东华为手机前十页的所有商品的链接、名称、价格、评价数以及店铺名称。 1.前期准备（1）下载驱动我使用的是谷歌浏览器，所以要下载谷歌驱动，用来告诉电脑在哪打开浏览器驱动文件下载地址：...
Xpath Helper 2.0.2
2020-12-07 14:27

3. 代码生成：对于选定的元素，XPath Helper可以自动生成适用于各种编程语言（如Python的BeautifulSoup、Java的Jsoup等）的XPath代码片段，方便开发者直接引入到项目中。 4. 自动补全：插件提供了XPath函数和轴的...
「Python爬虫系列讲解」十三、用 Scrapy 技术爬取网络数据
2020-07-08 00:06

荣仔！最靓的仔！的博客本专栏是以杨秀璋老师爬虫著作《Python网络数据爬取及分析「从入门到精通」》为主线、个人学习理解为主要内容，以学习笔记形式编写的。本专栏不光是自己的一个学习分享，也希望能给您普及一些关于爬虫的相关知识...
影刀RPA实战：网页爬虫之网站小说章节写入TXT文件
2024-10-11 22:35

微刻时光的博客影刀RPA是一款功能强大的机器人流程自动化软件，它能够帮助用户自动化执行各种重复性任务，从而提高工作效率和准确性，影刀RPA提供了直观的拖拽式流程设计器，即使没有编程背景的用户也能快速上手构建自动化流程，影...
XPath语法完全指南（实战详解版）
2025-05-23 11:18

星哲最开心的博客 XPath（XML Path Language）即 XML 路径语言，是一种用于在 XML 和 HTML 文档中...比如，在一个图书管理系统的 XML 文档中，你可以利用 XPath 快速定位到所有价格高于 50 元的图书节点，获取它们的书名、作者等信息。
Python爬取校花网[项目代码]
2025-11-13 07:14

Python作为一种功能强大的编程语言，因其简洁的语法和强大的数据处理能力，已经成为编写网络爬虫的首选语言之一。本文将详细介绍如何使用Python来爬取校花网的相关数据。首先，要爬取目标网站的数据，必须了解和...
【Python爬虫(10)】解锁XPath：Python爬虫的精准导航仪（京东、淘宝实例）
2025-02-17 13:27

奔跑吧邓邓子的博客 XPath（XML Path Language）是一种用于在 XML 文档中定位和选择元素的查询语言，在爬虫领域，它常用于从 HTML 或 XML 页面中提取数据，通过特定的语法规则，能够精准地定位到页面中的各种元素，为数据提取提供了极大...
Xpath基础知识[源码]
2025-11-20 10:29

Xpath是一种功能强大的数据定位语言，主要用于HTML文档中，能够准确地定位和提取信息。它的基础是理解HTML的树状结构，这种结构由不同的节点组成，其中包括父节点、子节点和兄弟节点等。掌握了这些关系，用户就可以...
Python爬虫之多线程爬取小说
2024-01-02 14:56

一只程序猿子的博客本文讲介绍如何使用Python编写爬虫爬取小说网站的小说！在本文中,我们将使用多线程技术提高爬取的效率。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月14日

用xpath爬取中文后，保存到txt文档中，中文成了编号，英文不受影响。

3条回答 默认 最新

问题事件

3条回答默认最新