qq_35029614
qq_35029614
采纳率0%
2017-12-30 16:04 阅读 2.6k

利用JAVA爬虫如何实现Web网页的保存

10
  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

7条回答 默认 最新

  • caozhy 从今以后生命中的每一秒都属于我爱的人 2017-12-30 16:09

    参考这个程序:https://www.cnblogs.com/liuxianan/archive/2012/10/09/2717561.html
    注意的思路就是遍历链接分别下载,并且要把链接在网页里的指向改成指向相对路径的文件。
    另外,一些需要ajax交互的网页,实际上是不能抓取的,因为它们需要实时和服务器交互数据。

    点赞 1 评论 复制链接分享
  • MikeDDT009 MikeDDT009 2018-01-01 06:22

    纯粹的离线想要实现我认为是可行的,但是一个问题在于一个网页生成的时候,很很多资源会进行二次请求(也就是一个网页的组成是多次请求的结果),详情可以F12调试看网络那里可以看到:
    1.先请求了网页的整体结构
    2.请求各种资源,CSS,JS,图片

    而这种想要在自己电脑离线出完全的效果的话,那么就相当于你自己写了一个同样结构的网页(HTML),然后其他的CSS,图片,JS等还需要存放到本地,并且把其中对应的标签元素里的请求地址,如img标签里面的src属性的地址该为本地的,林林种种,其实还是蛮复杂的,比如打开淘宝首页,几百张的图片全部需要下载下来,也就是另存为,这种还可能是和源文件相差很大的,图片大小等等

    点赞 1 评论 复制链接分享
  • jkl012789 叮咚呛咚呛 2018-01-02 02:02

    用jsoup吧~ 至于你所说的下载网站的资源 那就只能解析网站里面的链接了 根据链接的后缀区分是样式、脚本、图片等等,然后分别做处理即可~

    点赞 1 评论 复制链接分享
  • TreasureNow 李树超 2018-01-02 02:42

    java的话静态用 jsoup , 动态用 htmlUnit ; 不过我觉得 casperjs 更好些

    点赞 1 评论 复制链接分享
  • u010367576 MrFzy 2018-01-03 15:53

    post或者get请求到网页后打开的是源码,要对源码进行分析,写算法提取title,a标签,img标签,文章内容等,然后除掉表头表尾,获取正文内容,一般最大化就是body里面,剔除所有标签即可。

    点赞 1 评论 复制链接分享
  • quanquange fklin 2017-12-30 18:04
    点赞 评论 复制链接分享
  • dcxy0 Q544471255 2017-12-31 05:55

    全站下载有点过于复杂了,一般只是要下载网页的话,是没任何问题的,你可以看下像百度新闻,这样的新闻机器人,直接抓取百度新闻这样的更方便一些。

    点赞 评论 复制链接分享

相关推荐