Protoss_Sine
2017-04-12 07:58python3 Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教!
各位大神好:
下面这几句代码输出网页解析的结果为什么结果很难看:
import lxml.html
broken_html = '<ul class=country><li>area<li>population</ul>'
tree = lxml.html.fromstring(broken_html)
cc = lxml.html.tostring(tree, pretty_print=True, method='html').decode()
print(cc)
下面是输出结果:
<ul class="country">
<li>area</li>
<li>population</li>
</ul>
尽管闭合了标签,但是完全看不出嵌套关系了。上面的decode()是为了将前面的输出bytes类型转换成str类型。
而使用BeautifulSoup同样出错
from bs4 import BeautifulSoup
soup = BeautifulSoup(broken_html, 'html.parser')
ccc = soup.prettify()
print(ccc)
结果,标签都补错了:
”<ul class="country">
<li>
area
<li>
population
</li>
</li>
</ul>”
第一次发帖,求各位大神给我解释下,多谢!
- 点赞
- 回答
- 收藏
- 复制链接分享
3条回答
为你推荐
- 求助:python爬取图片,怎么取出标签里的src内容?
- python
- 6个回答
- python程序报错,新手问题,求大神解答
- python
- 2个回答
- python 爬取表格 获取不到数据
- python
- 4个回答
- python爬虫爬取斗图啦上的图片,打开爬取的图片显示图片错误
- python
- 3个回答
- 爬虫方面的问题,返回不了网页里的信息。
- python
- 3个回答
换一换