学习爬虫,这问题研究了下.不知道怎么保存了.
比如:
这样的
如果用 xpath .text只能获取文本..
后来我想了用 遍历每排元素的方式
发现 img 标签没法搞了. 因为没有文本 直接会跳过.
所以请教下..怎么保存原来的 文章格式..特别是图片穿插的位置..如何保存呢.谢谢..
或者你们用的什么方法呢..谢谢.
学习爬虫,这问题研究了下.不知道怎么保存了.
比如:
这样的
如果用 xpath .text只能获取文本..
后来我想了用 遍历每排元素的方式
发现 img 标签没法搞了. 因为没有文本 直接会跳过.
所以请教下..怎么保存原来的 文章格式..特别是图片穿插的位置..如何保存呢.谢谢..
或者你们用的什么方法呢..谢谢.
把那一段的标签内容全部拿下来,遍历所有标签的内容,判断是否带有图片的标签。 如果带有就拿图片链接 如果没有就拿文章text 再插入到一个列表里面 这样就是按照原文的格式保存下来