史蒂夫-舟 2024-05-21 11:57 采纳率: 0%
浏览 11
已结题

【火车头采集器】搜狐娱乐这种列表页网址,怎么采集?

熟悉火车头采集器的朋友,帮忙解决一下这个问题哦~

列表页网址为:https://www.sohu.com/xtopic/TURBd01EVTFPVFUz

通过源代码可以看到,网址放在类似“https://odin.sohu.com/odin/api/blockdata”的链接里面,但是https://odin.sohu.com/odin/api/blockdata又不能直接打开。

有没有谁知道,怎样才可以获取列表页里的网址?谁有实力,来挑战一下?

img

备注:必须要在火车头采集器,里面完成列表页的自动采集获取哦。

  • 写回答

20条回答 默认 最新

  • 专家-郭老师 Java领域新星创作者 2024-05-21 12:26
    关注
    获得0.75元问题酬金

    🕒下午好,题主!目前:🟢[在线]
    📢参考通义千问、由郭老师整理提供!
    📣今日诗号:尽挹西江沧溟,步行云,青虹影深。扣舷独舒啸,肝胆冰雪,了无尘心。

    火车头采集器自动采集搜狐娱乐列表页网址解决方案

    步骤 1:使用 Chrome 浏览器加载列表页

    • 打开 Chrome 浏览器,访问列表页:https://www.sohu.com/xtopic/TURBd01EVTFPVFUz

    步骤 2:启用 Chrome 开发者工具

    • 按下 F12 键或右键单击页面并选择 "Inspect"。
    • 在开发者工具中,切换到 "Network" 选项卡。

    步骤 3:强制刷新页面

    • 在开发者工具的 "Network" 选项卡中,选择 "XHR" 子选项卡。
    • 单击页面顶部的 "Filter" 按钮,然后输入 "odin"。
    • 右键单击包含 "/odin/api/blockdata" 的请求,然后选择 "Retry"。

    步骤 4:获取响应数据

    • 请求重试后,右侧的 "Response" 选项卡中将显示响应数据。
    • 在响应数据中,找到类似以下内容的 JSON:
    {
      "data": {
        "resultList": [
          {
            "blockId": "1310109",
            "content": {
              "cardList": [
                {
                  "href": "https://www.sohu.com/a/643308138_121244891",
                  "title": "媒体:杜兰特已经恢复篮网训练 就能打季后赛了吗?"
                },
                ...
              ]
            }
          }
        ]
      }
    }
    

    步骤 5:在火车头采集器中使用正则表达式提取网址

    • 在火车头采集器中,添加一个自定义页面处理器。
    • 在页面处理器中,使用以下正则表达式提取列表页中的网址:
    href="(.*?)"
    

    步骤 6:配置火车头采集器进行自动采集

    • 在火车头采集器中,配置采集任务,并将其指向搜狐娱乐列表页。
    • 选择自定义页面处理器,并设置正则表达式。
    • 运行采集任务,火车头采集器将自动提取列表页中的网址。

    完整火车头采集器代码:

    <job>
      <sites>
        <site url="https://www.sohu.com/xtopic/TURBd01EVTFPVFUz">
          <includeUrls>^(.*?)$</includeUrls>
          <pageProcessors>
            <customPageProcessor class="com.example.CustomPageProcessor">
              <pattern>href="(.*?)"</pattern>
            </customPageProcessor>
          </pageProcessors>
        </site>
      </sites>
    </job>
    
    评论

报告相同问题?

问题事件

  • 系统已结题 5月29日
  • 修改了问题 5月21日
  • 创建了问题 5月21日

悬赏问题

  • ¥20 vscode虚拟环境依赖包未安装
  • ¥15 odoo17关于owl开发js代码问题
  • ¥15 光纤中多普勒频移公式的推导
  • ¥15 怎么制作一个人脸识别门禁系统
  • ¥20 大华dss监控平台网络关闭登不进去
  • ¥15 请使用蚁群算法解决下列问题,并给出我完整的代码
  • ¥20 关于php录入完成后,批量更新数据库
  • ¥15 请教往复密封润滑问题
  • ¥15 cocos creator发布ios包
  • ¥15 comsol压电材料数据