无需外部依赖的高性能网络蜘蛛

I'm trying to write my first web-spider in Golang. Its task is to crawl domains (and inspect their html) from the provided database query. The idea is to have no 3rd party dependencies (e.g. msg queue), or as little as possible, yet it has to be performant enough to crawl 5 million domains per day. I have approx 150 million domains I need to check every month.

The very basic version below - it runs in "infinite loop" as theoretically the crawl process would be endless.

func crawl(n time.Duration) {
    var wg sync.WaitGroup
    runtime.GOMAXPROCS(runtime.NumCPU())

    for _ = range time.Tick(n * time.Second) {
        wg.Add(1)

        go func() {
            defer wg.Done()

            // do the expensive work here - query db, crawl domain, inspect html
        }()
    }
    wg.Wait()
}

func main() {
    go crawl(1)

    select{}
}

Running this code on 4 CPU cores at the moment means it can perform max 345600 requests during 24 hours ((60 * 60 * 24) * 4) with the given threshold of 1s. At least that's my understanding :-) If my thinking's correct then I will need to come up with solution being 14x faster to meet daily requirements.

I would appreciate your advices in regards to make the crawler faster, but without resolving to complicated stack setup or buying server with more CPU cores.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dsd119120 2015-12-17 17:19
关注
Why have the timing component at all?

Just create a channel that you feed URLs to, then spawn N goroutines that loop over that channel and do the work.

then just tweak the value of N until your CPU/memory is capped ~90% utilization (to accommodate fluctuations in site response times)

something like this (on Play):

package main import "fmt" import "sync" var numWorkers = 10 func crawler(urls chan string, wg *sync.WaitGroup) { defer wg.Done() for u := range urls { fmt.Println(u) } } func main() { ch := make(chan string) var wg sync.WaitGroup for i := 0; i < numWorkers; i++ { wg.Add(1) go crawler(ch, &wg) } ch <- "http://ibm.com" ch <- "http://google.com" close(ch) wg.Wait() fmt.Println("All Done") }
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

具有分页处理功能的Golang网络蜘蛛
2018-01-10 23:39

回答 1 已采纳 The problem is probably that main exits before all goroutine finished. First, there is a break af
php判断真假蜘蛛该怎么修改？ php
2023-02-19 18:30

回答 4 已采纳看起来您正在尝试修改 PHP 代码以从基于用户代理的蜘蛛检测切换到基于 IP 和主机名的检测。这是修改代码以实现此目的的一种方法： function getip() { if ($_SERVE
如何跳出红蜘蛛的监控？
2015-12-10 03:31

回答 9 已采纳这个简单,我也有过经历,有两种确定的方法一种我自己猜的方法,1:你下载或者有360的话找到360的流量防火墙找到红蜘蛛的进程禁止访问网络或者点击360悬浮加速球在弹出的方框中点击下方的**网速**
网络安全专业名词解释
2022-03-04 16:03

晶晶娃在战斗的博客 FRP是一个高性能的反向代理工具，可以进行内网穿透，对外网提供服务，支持TCP、HTTP、HTTPS等协类型，并且Web服务支持根据域名进行路由转发。 Fuzz Seanner，一个主要用于信息搜集的工具集，主要用于对网站子域名、...
pom文件变成蜘蛛，但是ant却没有pom idea intellij-idea java
2022-10-31 16:21

回答 1 已采纳删除pom文件重新引入一下pom文件
计算蝉，蜻蜓和蜘蛛的数目。 c++
2021-10-24 18:41

回答 1 已采纳最简单的方法就是直接循环枚举，看哪一种情况符合条件
什么情况下蜘蛛爬取网页会出现504 爬虫百度
2018-08-16 09:57

回答 3 已采纳 504错误编辑 504是（超时）服务器作为网关或代理，但是没有及时从服务器收到请求。这通常意味着服务器已关闭（不响应网关 / 代理），而不是上游服务器和网关 / 代理在交换
福岛邦彦在多少年创立了卷积神经网络
2022-08-24 16:05

小浣熊的技术的博客深度学习框架，尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2]，而人工神经网络的历史更为久远。1989年，燕乐存（YannLeCun）等人开始将1974年提出的标准反向传播算法[3]应用于深度神经...
求蜘蛛纸牌c程序源码！！！ c++
2015-12-10 13:46

回答 2 已采纳 [http://www.codeforge.cn/read/120284/SpiderView.cpp__html](http://www.codeforge.cn/read/120284/Spide
为什么可以通过百度搜索到别人的博客？爬虫
2017-04-24 05:36

回答 1 已采纳首页上有目录目录里有下一页，所以能遍历到你的网站如果是死页（也就是没有任何外部页面链接），那肯定爬不到。当然如果你提交页面去让搜索引擎索引另当别论。
从PHP中的View计数器中排除机器人和蜘蛛 php
2013-07-07 19:10

回答 4 已采纳 You need to serve the ADs with JavaScript. That's the only way to avoid most of the crawlers. Only
什么是网络爬虫，网络爬虫的职能是什么
2016-05-16 10:56

浮生(FS)的博客网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，...
实验报告 java类与对象 java
2022-05-20 20:22

回答 2 已采纳已全部实现。实验2-1运行结果如下：运动员[name:张飞, age:20, country:中国] 参与跳高项目的人有:[张飞] 实验2-2运行结果如下：老李(1 李白)释放将进酒技能小百(
学习网络协议的历程
2021-12-13 22:26

MrWiFi的博客彻底搞定网络协议一、基础知识和环境搭建互联网中的信息交流，并不是简单的我将信息提交到互联网，然后你就收到信息。而是要通过一系列的复杂的过程。 1.数据是如何从一个设备传递到另一个设备的？...
【面试招聘】计算机网络专场（一）
2021-08-06 22:46

CodeLuweir的博客 TCP作为一个可靠传输协议，其可靠性就是依赖于收到对方的数据，ACK对方，这样对方就可以释放缓存的数据（因为一但消息丢失，就要进行重发，重发缓冲区里面的数据），因为对方确信数据已经被接收到了。...
百度，google等搜索引擎的网络蜘蛛基本原理
2012-05-29 08:20

开发者孙小聪的博客网络蜘蛛网络蜘蛛基本原理网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面...
网络攻击与防范—术语和工具介绍
2021-12-29 22:39

⁡⁢琛歌的博客 5、0day 信息安全意义上的0Day是指在安全补丁发布前而被了解和掌握的漏洞信息，后来将一些大规模、致命性、高威胁性、能够造成巨大破坏的漏洞也称为零日漏洞。在未修补之前，用户的系统非常危险。美国曾用0day漏洞...
没有解决我的问题, 去提问

悬赏问题

¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用
¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？

无需外部依赖的高性能网络蜘蛛

1条回答 默认 最新

悬赏问题

1条回答默认最新