逻辑是这样的:
1.先爬取页面所有a标签
2.a标签里的标题通过正则匹配关键词有几千个。
3.根据匹配到的关键词判断其他的筛选条件,都通过a标记的连接地址和标题保存到数据库
*上面的步骤一个页面需要二三十秒。
然后每个a标签对应的网页也要重复上面的步骤爬取,只下级页面不是无限的。
go写的,主要瓶颈就是页面标题获取判断,正则耗的时间有点多。有什么优化办法吗?
T.T