jsoup如何解析只给出网站首页的url,例如www.baidu.com?提取出主要内容,存放到数据库中。
3条回答 默认 最新
- suziwen 2011-08-12 09:15关注
这个比较难,因为网站的子域名都是不确定的
没有什么固定的算法去找
像google,baidu的爬虫也是通过一个网页内的所有链接找到下一个页面
再从下一个页面里的链接再往链条上爬,
如果一个孤立的地址,没有任何页面的引用 ,也没有告诉爬虫怎么走,是永远也找不到的
不过一般的网站都会提供一个自己的网站地图,里面放着该网站的所有相关链接
你可以解析该链接找到所有相关的子页面
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 为什么我按照电路图做出的仿真和实物都不能使用
- ¥15 mars2d在vue3中的引入问题
- ¥50 h5唤醒支付宝并跳转至向小荷包转账界面
- ¥15 算法题:数的划分,用记忆化DFS做WA求调
- ¥15 chatglm-6b应用到django项目中,模型加载失败
- ¥15 CreateBitmapFromWicBitmap内存释放问题。
- ¥30 win c++ socket
- ¥15 C# datagridview 栏位进度
- ¥15 vue3页面el-table页面数据过多
- ¥100 vue3中融入gRPC-web