Protoss_Sine 2017-04-12 07:58 采纳率: 0%
浏览 1540

python3 Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教!

各位大神好:
下面这几句代码输出网页解析的结果为什么结果很难看:

 import lxml.html
broken_html = '<ul class=country><li>area<li>population</ul>'
tree = lxml.html.fromstring(broken_html)
cc = lxml.html.tostring(tree, pretty_print=True, method='html').decode()
print(cc)

下面是输出结果:

 <ul class="country">
<li>area</li>
<li>population</li>
</ul>

尽管闭合了标签,但是完全看不出嵌套关系了。上面的decode()是为了将前面的输出bytes类型转换成str类型。

而使用BeautifulSoup同样出错

 from bs4 import BeautifulSoup
soup = BeautifulSoup(broken_html, 'html.parser')
ccc = soup.prettify()
print(ccc)

结果,标签都补错了:

 ”<ul class="country">
 <li>
  area
  <li>
   population
  </li>
 </li>
</ul>”

第一次发帖,求各位大神给我解释下,多谢!

  • 写回答

3条回答

  • Protoss_Sine 2017-04-12 07:57
    关注

    为什么,中间的代码直接变成网页了,。。。。。

    评论

报告相同问题?

悬赏问题

  • ¥100 海康工业相机受其它打开端口影响,读取缓慢的问题。
  • ¥15 我想达到能够自行训练模型的一个程度,需要学多久(已有Python基础,但未接触其他)
  • ¥30 关于多级下拉列表获取数据库值内容的问题
  • ¥15 求mfc界面开发封装好的库
  • ¥15 comsol如何建立一个封闭气室膜片对温度变化产生的形变量仿真模型
  • ¥15 树莓派4B与stm32串口通讯
  • ¥15 C++后台循环截屏代码收集
  • ¥15 GD32F303读取ADS1118芯片传输的电压
  • ¥15 maple中的DEplot画相图,如何能清楚显示常微分方程组的两个极限环?
  • ¥15 C++后台循环截屏bug