xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13”

问题遇到的现象和发生背景

爬虫课学到XPATH 解析。然后练习解析html 文件

问题相关代码，请勿粘贴截图

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
    <h1>我的第一个标题</h1>
    <p>我的第一个段落。</p>
    <div>
        <ul>
            <li class="item-0"><a href="link1.html">first 中午</a></li>
            <li class="item-i active"><a href="link2.html">second item</a></li>
            <li class="item-i active red"><a href="link3.html">third item</a></li>
            <li class="item-i active blue" name = "li"><a href="link4.html">fourth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a>
        </ul>
    </div>
</body>
</html>

from lxml import etree

h2=etree.parse("1.html",etree.HTMLParser(encoding='utf-8'))
print(h2)
str=etree.tostring(h2,encoding="utf-8")
print(str.decode('utf-8'))

运行结果及报错内容

运行结果就是解析出来的东西每个后面都会加&#13； teacher看了半天说可能是换行符编码，他也解决不了但没啥影响

我的解答思路和尝试过的方法

最开始用的是自己写的一个简单HTML ，后来拿了一个简单网页的源代码复制过来做HTML ，最后去runoob教程拿个简单框架，自己写了几个标签的HTML。无一例外的会出现这个奇怪的编码。

我想要达到的结果

为什么就我会出来这个编码……虽然没报错也不影响使用。但还是觉得哪里不对。我想知道到底哪里不对？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
llc的足迹 2021-11-30 09:20
关注
method默认为xml，设置为html就行了

etree.tostring(h2, encoding="utf-8", method='html')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 6
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

xpath解析网页文件，每行结尾都出现编码“&#13”总结小tips
2023-04-18 19:07

是乙太呀的博客最近正在学习爬虫之际，但是遇到了一个匪夷所思的问题：在使用按字符串序列化HTML文档的有些时候，在每一行的结尾都会出现奇怪的字符，而且在xpath匹配时后面还不会进行截断。
Python 爬虫项目：xpath 语法精讲，精准解析网页结构化数据
2026-01-12 13:24

python 爬虫工程师的博客本文详细介绍了Python爬虫中使用XPath解析网页的技术要点。XPath通过路径表达式精准定位HTML/XML节点，相比BeautifulSoup具有更高解析效率和灵活性。文章系统讲解了XPath的基础语法、节点筛选、数据提取等核心知识，...
Python 网络爬虫解析网页数据：正则表达式、XPath 与 lxml 实战指南
2025-06-07 15:39

海燕李的博客上述代码通过re.findall方法，使用正则表达式模式\d{3}-\d{4}-\d{4}|\d{11}匹配两种常见的...在这个案例中，通过lxml库将网页内容解析为 XML 元素树，利用 XPath 表达式精准定位电影标题和评分所在节点，并提取数据。
五：爬虫-数据解析之xpath解析
2023-12-10 21:26

温轻舟的博客本篇文章主要讲述了数据解析中的xpath解析，及相对路径的定位语法。最后以爬取豆瓣top250首页作为示例总结
python3网页源码解析_Python网页解析
2020-11-30 05:28

weixin_39707725的博客在Python中解析网页的库不少，我最开始使用的是BeautifulSoup，貌似这个也是Python中最知名的HTML解析库。它主要的特点就是容错性很好，能很好地处理实际生活中各种乱七八糟的网页，而且它的API也相当灵活而且丰富。...
python爬虫xpath出来空值_Python爬虫之数据解析（XPath）
2021-03-06 16:34

和风木雨的博客 XML 文档的特点：XML 文档中的每个成分都是一个节点。整个文档是一个根节点；每个 XML 标签是一个元素节点；包含在 XML 元素中的文本是文本节点；每一个 XML 属性是一个属性节点；注释则属于...
python爬虫xpath提取数据_Python爬虫之数据解析（XPath）
2020-11-20 21:40

weixin_39806413的博客 XML 文档的特点：XML 文档中的每个成分都是一个节点。整个文档是一个根节点；每个 XML 标签是一个元素节点；包含在 XML 元素中的文本是文本节点；每一个 XML 属性是一个属性节点；注释则属于...
【Python爬虫专栏】第3课——爬取全国邮政编码数据
2025-06-06 19:00

小庄-Python办公的博客本文介绍了一个实用的Python爬虫项目，用于从邮政编码查询网站批量获取全国各省市的邮政编码数据。通过使用requests发送请求、lxml解析HTML、openpyxl操作Excel等技术，实现了自动化抓取邮政编码信息并保存为Excel...
Python3网络爬虫开发实战（3）网页数据的解析提取
2024-07-25 09:13

Bigcrab__的博客 xpath，css，beautifulsoup，pyquery，parsel 解析
网页解析工具（XPath与正则表达式）
2022-04-07 23:25

海绵-_-b的博客 lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML数据基本使用利用来解析HTML代码，并在解析时，如果HTML代码不规范，将自动进行补全 from lxml import etree text = ''' <div> hello ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日