weixin_43780980 2021-07-12 17:55 采纳率: 50%
浏览 33

爬虫采集 瀑布流网页数据,有啥子好用的方法嘛?

  • 写回答

1条回答 默认 最新

  • 向宇it 全栈领域优质创作者 2022-10-31 16:47
    关注

    如果是php可以使用querylist爬虫类库
    安装

    composer require jaeger/querylist
    

    demo

    <?php
    
    use QL\QueryList;
    
    //DOM解析某页面所有的图片
    $data = QueryList::get('http://cms.querylist.cc/bizhi/453.html')->find('img')->attrs('src');
    //打印结果
    print_r($data->all());
    
    //DOM解析某页面所有的超链接和超链接文本内容
    //可以先手动获取要DOM解析的页面源码
    $html = file_get_contents('http://cms.querylist.cc/google/list_1.html');
    //然后可以把页面源码或者HTML片段传给QueryList
    $data = QueryList::html($html)->rules([  //设置DOM解析规则
        // DOM解析所有a标签的href属性
        'link' => ['a','href'],
        // DOM解析所有a标签的文本内容
        'text' => ['a','text']
    ])->range('li')->query()->getData();
    //打印结果
    print_r($data->all());
    
    /**
     * 在线测试DOM解析并查看DOM解析结果:http://querylist.cc/querylist-test
     */
    
    
    

    具体你可以去看官网:http://www.querylist.cc/

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 7月12日

悬赏问题

  • ¥15 关于#python#的问题,请各位专家解答!
  • ¥15 对于这个问题的解释说明
  • ¥200 询问:python实现大地主题正反算的程序设计,有偿
  • ¥15 smptlib使用465端口发送邮件失败
  • ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败
  • ¥20 java在应用程序里获取不到扬声器设备