MicroX.S.r 2016-03-05 03:07 采纳率: 25%
浏览 3190
已结题

C#如何格式化HTML代码

做爬虫的时候,爬取的html会出现 标签不完全匹配的情况。缺少或者多一些标签,或者一些标签是断掉的。如何通过C#代码来格式化html呢?
有些网站是可以格式化的,毕竟是js写的。找的最好的也就是这个网站了:
http://www.baidufe.com/fehelper/codebeautify.html图片说明

如何才能通过C#实现格式化html的功能呢?

  • 写回答

3条回答

  • threenewbee 2016-03-05 23:04
    关注

    如果标签缺失,你需要一种规则去理解这种代码二义性。
    比如
    <div><div></div>
    到底是内侧的div缺失还是外侧的div缺失,这个由不同的理解。

    在本身html完整的情况下,可以用xml解析的方式遍历节点,然后再输出对应层次对应的缩进

    评论

报告相同问题?

悬赏问题

  • ¥15 R语言Rstudio突然无法启动
  • ¥15 关于#matlab#的问题:提取2个图像的变量作为另外一个图像像元的移动量,计算新的位置创建新的图像并提取第二个图像的变量到新的图像
  • ¥15 改算法,照着压缩包里边,参考其他代码封装的格式 写到main函数里
  • ¥15 用windows做服务的同志有吗
  • ¥60 求一个简单的网页(标签-安全|关键词-上传)
  • ¥35 lstm时间序列共享单车预测,loss值优化,参数优化算法
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值