jsoup如何解析只给出网站首页的url,例如www.baidu.com?提取出主要内容,存放到数据库中。
3条回答 默认 最新
- suziwen 2011-08-12 09:15关注
这个比较难,因为网站的子域名都是不确定的
没有什么固定的算法去找
像google,baidu的爬虫也是通过一个网页内的所有链接找到下一个页面
再从下一个页面里的链接再往链条上爬,
如果一个孤立的地址,没有任何页面的引用 ,也没有告诉爬虫怎么走,是永远也找不到的
不过一般的网站都会提供一个自己的网站地图,里面放着该网站的所有相关链接
你可以解析该链接找到所有相关的子页面
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥100 关于使用MATLAB中copularnd函数的问题
- ¥20 在虚拟机的pycharm上
- ¥15 jupyterthemes 设置完毕后没有效果
- ¥15 matlab图像高斯低通滤波
- ¥15 针对曲面部件的制孔路径规划,大家有什么思路吗
- ¥15 钢筋实图交点识别,机器视觉代码
- ¥15 如何在Linux系统中,但是在window系统上idea里面可以正常运行?(相关搜索:jar包)
- ¥50 400g qsfp 光模块iphy方案
- ¥15 两块ADC0804用proteus仿真时,出现异常
- ¥15 关于风控系统,如何去选择