小骅 2019-05-22 17:50 采纳率: 0%
浏览 561
已结题

已知一个网站,在不被搜索引擎收录的情况下,如何找出类似的相关网站

1.第一个问题就和标题一样
2.搜索引擎搜索不出来,已知相关网站信息,如何通过相关信息找如对应想要的内容
爬虫?还是用什么方法查找 比如一个购物网站 其链接都是跳转到淘宝上,如何找出对应这样的购物网站也是跳转到淘宝上。

  • 写回答

1条回答 默认 最新

  • threenewbee 2019-05-22 19:13
    关注

    (1) 如果搜索引擎不收录,那么你就要自己去爬取数据,此时你相当于自己建搜索引擎,爬虫的目的就是你自己收录这些数据
    在有了爬虫抓取的页面的基础上,可以做相似度分析,比如根据关键字/词频分析/用户一致性,就可以找到这种相关的网站。
    特别地,如果你掌握一种入口,比如说你拥有一个很大的共有网络,一款用户数很多的app,你拥有很多客户端,你是广告联盟等,你实际上可以通过劫持用户的流量发现大量的网站,只要你的用户中有人访问它们。
    这样一来你可以发现大量没有被搜索引擎收录的网站。
    (2)这个你有链接,你就可以请求这个地址,服务器会返回给你重定向的地址,你就能找到真实跳转的网页了。这个你可以给我一个链接,我帮你写一个demo。

    评论

报告相同问题?

悬赏问题

  • ¥15 HLs设计手写数字识别程序编译通不过
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 TYPCE母转母,插入认方向
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?
  • ¥15 matlab(相关搜索:紧聚焦)
  • ¥15 基于51单片机的厨房煤气泄露检测报警系统设计
  • ¥15 路易威登官网 里边的参数逆向
  • ¥15 Arduino无法同时连接多个hx711模块,如何解决?
  • ¥50 需求一个up主付费课程