zarte 2018-10-07 18:55 采纳率: 0%
浏览 738
已结题

爬虫根据关键词等获取页面如何优化求助!!??

逻辑是这样的:
1.先爬取页面所有a标签
2.a标签里的标题通过正则匹配关键词有几千个。
3.根据匹配到的关键词判断其他的筛选条件,都通过a标记的连接地址和标题保存到数据库

            *上面的步骤一个页面需要二三十秒。
            然后每个a标签对应的网页也要重复上面的步骤爬取,只下级页面不是无限的。

            go写的,主要瓶颈就是页面标题获取判断,正则耗的时间有点多。有什么优化办法吗?
            T.T
  • 写回答

1条回答 默认 最新

  • start0878 2018-10-07 19:24
    关注

    1、可以用find_elements_by_tag()捕获。不知道你2和3是啥意思。

    评论
    编辑
    预览

    报告相同问题?

    悬赏问题

    • ¥20 四叉树的创建和输出问题
    • ¥15 使用okhttp分片上传文件,总是超时,到底是哪里的问题
    • ¥15 javaweb连接数据库,jsp文件加载不出来
    • ¥15 matlab关于高斯赛德尔迭代的应用编撰。(相关搜索:matlab代码|迭代法)
    • ¥15 pkg-types,vite,d
    • ¥15 损失匹配问题,求解答
    • ¥15 3500常用汉字书法体检测数据集下载
    • ¥15 odoo17在制造模块或采购模块良品与次品如何分流和在质检模块下如何开发
    • ¥15 Qt音乐播放器的音乐文件相对路径怎么写
    • ¥15 VB.NET利用摄像头拍照的程序
    手机看
    程序员都在用的中文IT技术交流社区

    程序员都在用的中文IT技术交流社区

    专业的中文 IT 技术社区,与千万技术人共成长

    专业的中文 IT 技术社区,与千万技术人共成长

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    客服 返回
    顶部