sovereign123 2011-08-11 09:49
浏览 176
已采纳

jsoup如何对整个网站进行解析

jsoup如何解析只给出网站首页的url,例如www.baidu.com?提取出主要内容,存放到数据库中。

  • 写回答

3条回答 默认 最新

  • suziwen 2011-08-12 09:15
    关注

    这个比较难,因为网站的子域名都是不确定的

    没有什么固定的算法去找

    像google,baidu的爬虫也是通过一个网页内的所有链接找到下一个页面

    再从下一个页面里的链接再往链条上爬,

    如果一个孤立的地址,没有任何页面的引用 ,也没有告诉爬虫怎么走,是永远也找不到的

    不过一般的网站都会提供一个自己的网站地图,里面放着该网站的所有相关链接

    你可以解析该链接找到所有相关的子页面

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥100 关于使用MATLAB中copularnd函数的问题
  • ¥20 在虚拟机的pycharm上
  • ¥15 jupyterthemes 设置完毕后没有效果
  • ¥15 matlab图像高斯低通滤波
  • ¥15 针对曲面部件的制孔路径规划,大家有什么思路吗
  • ¥15 钢筋实图交点识别,机器视觉代码
  • ¥15 如何在Linux系统中,但是在window系统上idea里面可以正常运行?(相关搜索:jar包)
  • ¥50 400g qsfp 光模块iphy方案
  • ¥15 两块ADC0804用proteus仿真时,出现异常
  • ¥15 关于风控系统,如何去选择