🕒下午好,题主!目前:🟢[在线]
📢参考通义千问、由郭老师整理提供!
📣今日诗号:尽挹西江沧溟,步行云,青虹影深。扣舷独舒啸,肝胆冰雪,了无尘心。
火车头采集器自动采集搜狐娱乐列表页网址解决方案
步骤 1:使用 Chrome 浏览器加载列表页
- 打开 Chrome 浏览器,访问列表页:https://www.sohu.com/xtopic/TURBd01EVTFPVFUz
步骤 2:启用 Chrome 开发者工具
- 按下 F12 键或右键单击页面并选择 "Inspect"。
- 在开发者工具中,切换到 "Network" 选项卡。
步骤 3:强制刷新页面
- 在开发者工具的 "Network" 选项卡中,选择 "XHR" 子选项卡。
- 单击页面顶部的 "Filter" 按钮,然后输入 "odin"。
- 右键单击包含 "/odin/api/blockdata" 的请求,然后选择 "Retry"。
步骤 4:获取响应数据
- 请求重试后,右侧的 "Response" 选项卡中将显示响应数据。
- 在响应数据中,找到类似以下内容的 JSON:
{
"data": {
"resultList": [
{
"blockId": "1310109",
"content": {
"cardList": [
{
"href": "https://www.sohu.com/a/643308138_121244891",
"title": "媒体:杜兰特已经恢复篮网训练 就能打季后赛了吗?"
},
...
]
}
}
]
}
}
步骤 5:在火车头采集器中使用正则表达式提取网址
- 在火车头采集器中,添加一个自定义页面处理器。
- 在页面处理器中,使用以下正则表达式提取列表页中的网址:
href="(.*?)"
步骤 6:配置火车头采集器进行自动采集
- 在火车头采集器中,配置采集任务,并将其指向搜狐娱乐列表页。
- 选择自定义页面处理器,并设置正则表达式。
- 运行采集任务,火车头采集器将自动提取列表页中的网址。
完整火车头采集器代码:
<job>
<sites>
<site url="https://www.sohu.com/xtopic/TURBd01EVTFPVFUz">
<includeUrls>^(.*?)$</includeUrls>
<pageProcessors>
<customPageProcessor class="com.example.CustomPageProcessor">
<pattern>href="(.*?)"</pattern>
</customPageProcessor>
</pageProcessors>
</site>
</sites>
</job>