相对URl抓取问题

I'm making a crawler that fetches all relative and absolute links. But if there is a relative url that is incorrect, then the crawler continues to prepare new absolute url in the website that handles incorrect urls with 200 response code.

Let's say, there is a relative link : "example/example.php", when I try to crawl http://example.com/example.com. When I find that page, I'll append and create a new link to crawl i.e. http://example.com/example/example.php. The problem is the page will again contain example/example.php which then appends to http://example.com/example/example/example.php.

Is there a better way of getting rid of this other than content comparison?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

java网页抓取问题 java
2012-06-21 16:42

回答 4 已采纳 [color=blue][b]这里是使用HttpClient和nekohtml的完整实现，能够完整抓取出来运输进程一览：[/b][/color] [code="java"] public cl
请教python xpath抓取数据问题 python
2020-11-13 13:54

回答 2 已采纳看了一下，很明显这些数据都是通过js向后台获取的数据接口是http://sia.sseinfo.com/noc.gif?WS=10000042&RD=record&SWS=&SWSID=&SWSP
wireshark抓取RNDIS通信数据包解析问题 lua wireshark 有问必答
2021-09-27 11:50

回答 1 已采纳有几个问题需要说明下：1、rndis.lua的解析脚本被你“--”注释了，未生效2、你的过滤地址仅会显示ep0上的控制报文。你的截图是usb的枚举控制流程，具体rndis的控制流程你往下拖，如果有，应
数据采集url相对路径一键改成绝对路径
2021-02-09 17:45

Mr数据杨的博客类似某些网站在我们进行数据抓取的时候会遇见文章列表页url是绝对路径的情况，这个抓取下来直接访问详情页是没有结果直接404的，因此需要将网址url进行拼接或者详情页的网址。
nodejs抓取图片时的问题 javascript node.js
2019-09-06 20:40

回答 1 已采纳已经解决啦，request后面的方法名写错了，是pipe,以及图片地址错了应是ImDir.
抓取接口返回信息为空的问题 java 有问必答
2022-03-04 15:53

回答 5 已采纳访问有限制。限制同一个ip一定时间内访问次数。加线程睡眠，间隔执行。
使用php从url中抓取图像 php
2017-04-24 22:39

回答 2 已采纳 If you want something generic, you can use: <?php $the_site = "http://somesite.com"; $
.NET Core 实现定时抓取网站文章并发送到邮箱
2021-01-20 07:30

前言大家好，我是晓晨。许久没有更新博客了，今天给大家带来一篇干货型文章，一个每隔5分钟...因为博客园首页文章的质量相对来说高一些。准备作为一个持续运行的工具，没有日志记录怎么行，我准备使用的是NLog来记
HttpURLConnection抓取页面资源问题
2010-08-17 15:49

回答 4 已采纳如果你确定那个XML 能正常解析的话！ [code="java"]InputStreamReader isr = new InputStreamReader(in,encoding); [/c
七牛第三方资源抓取返回httpGet url failed and meet 404 java
2017-11-27 06:23

回答 1 已采纳已解决
搞过推特爬虫的进，抓取推特出现问题 javascript python 有问必答爬虫
2022-02-08 17:27

回答 2 已采纳对的，失效了，关键词还可以抓
使用jsoup爬虫抓取一个URL
2018-09-13 21:07

我喜欢煎蛋卷的博客 //递归的URL抓取 public static void Search(String URL) throws FileNotFoundException { //通过网络/本地获取到了HTML文本 String FileName = "本地html保存"; Document document = GetLoccalHtmlText(URL,...
一个Python抓取网页数据的问题 python 有问必答
2021-04-21 08:19

回答 7 已采纳这个长的字符串, 前面后面各加一个[ ], 就成了'[[],[]]'' 这种格式, 可以用eval()再转换一下, 就成了[[],[]] 可以生成数组或者dataframe,dataframe可转成
URL&HTTP协议详解
2021-10-22 01:24

君麟的博客 URL：统一资源定位符。这就意味着我们可以通过URL的方式去访问的资源（接口）。 URI：统一资源标识符。是一种抽象的概念，本身没有具体去实现。一、URL URL是实现接口访问的第一步，一般来说，一个URL是分为五个...
根据url获取html源码,通过URL访问和获取html源代码
2021-06-13 16:49

安静的森林的博客 URL 统一资源定位Uniform Resource Locator ,在Internet的WWW服务程序上用于指定信息位置的表示方法指定互联网或本地上(web服务中)的文件、对象资源等，或者说它相当于一个互联网上资源的一个指针协议主机路径 ...
没有解决我的问题, 去提问

悬赏问题

¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line

码龄粉丝数原力等级 --

相对URl抓取问题

0条回答默认最新

悬赏问题

相对URl抓取问题

0条回答 默认 最新

悬赏问题

0条回答默认最新