2 u011038411 u011038411 于 2016.02.13 21:02 提问

java爬虫中如何判断两个URL是否属于同一网站

如何判断两个URL是否属于同一网站,爬虫中要剔除站外链接,应该要怎么做,两个url主域名不一样但属于同一网站,应该通过什么进行判断

2个回答

caozhy
caozhy   Ds   Rxr 2016.02.13 21:54
 String url = "http://ask.csdn.net/questions/237143";
Pattern p = Pattern.compile("(?<=http://|\\.)[^.]*?\\.(com|cn|net|org|biz|info|cc|tv)",Pattern.CASE_INSENSITIVE);
Matcher matcher = p.matcher(url);
matcher.find();
System.out.println(matcher.group()); // csdn.net
qq_23660243
qq_23660243   2016.02.15 17:43

我就说个建议:正则解析进入主域名 获取网站真实IP 对比两个IP是否相同 关于获取ip我记得有那么个方法 但是忘了具体的实现了 你可以查查

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!