sovereign123 2011-08-11 09:49
浏览 176
已采纳

jsoup如何对整个网站进行解析

jsoup如何解析只给出网站首页的url,例如www.baidu.com?提取出主要内容,存放到数据库中。

  • 写回答

3条回答 默认 最新

  • suziwen 2011-08-12 09:15
    关注

    这个比较难,因为网站的子域名都是不确定的

    没有什么固定的算法去找

    像google,baidu的爬虫也是通过一个网页内的所有链接找到下一个页面

    再从下一个页面里的链接再往链条上爬,

    如果一个孤立的地址,没有任何页面的引用 ,也没有告诉爬虫怎么走,是永远也找不到的

    不过一般的网站都会提供一个自己的网站地图,里面放着该网站的所有相关链接

    你可以解析该链接找到所有相关的子页面

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 为什么我按照电路图做出的仿真和实物都不能使用
  • ¥15 mars2d在vue3中的引入问题
  • ¥50 h5唤醒支付宝并跳转至向小荷包转账界面
  • ¥15 算法题:数的划分,用记忆化DFS做WA求调
  • ¥15 chatglm-6b应用到django项目中,模型加载失败
  • ¥15 CreateBitmapFromWicBitmap内存释放问题。
  • ¥30 win c++ socket
  • ¥15 C# datagridview 栏位进度
  • ¥15 vue3页面el-table页面数据过多
  • ¥100 vue3中融入gRPC-web