【火车头采集器】搜狐娱乐这种列表页网址，怎么采集？

熟悉火车头采集器的朋友，帮忙解决一下这个问题哦~

列表页网址为：https://www.sohu.com/xtopic/TURBd01EVTFPVFUz

通过源代码可以看到，网址放在类似“https://odin.sohu.com/odin/api/blockdata”的链接里面，但是https://odin.sohu.com/odin/api/blockdata又不能直接打开。

有没有谁知道，怎样才可以获取列表页里的网址？谁有实力，来挑战一下？

备注：必须要在火车头采集器，里面完成列表页的自动采集获取哦。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

19条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师新星创作者: Java技术领域 2024-05-21 12:26
关注
获得0.75元问题酬金
🕒下午好，题主！目前：🟢[在线]
📢参考通义千问、由郭老师整理提供！
📣今日诗号：尽挹西江沧溟，步行云，青虹影深。扣舷独舒啸，肝胆冰雪，了无尘心。
火车头采集器自动采集搜狐娱乐列表页网址解决方案

步骤 1：使用 Chrome 浏览器加载列表页

打开 Chrome 浏览器，访问列表页：https://www.sohu.com/xtopic/TURBd01EVTFPVFUz

步骤 2：启用 Chrome 开发者工具

按下 F12 键或右键单击页面并选择 "Inspect"。
在开发者工具中，切换到 "Network" 选项卡。

步骤 3：强制刷新页面

在开发者工具的 "Network" 选项卡中，选择 "XHR" 子选项卡。
单击页面顶部的 "Filter" 按钮，然后输入 "odin"。
右键单击包含 "/odin/api/blockdata" 的请求，然后选择 "Retry"。

步骤 4：获取响应数据

请求重试后，右侧的 "Response" 选项卡中将显示响应数据。
在响应数据中，找到类似以下内容的 JSON：

{ "data": { "resultList": [ { "blockId": "1310109", "content": { "cardList": [ { "href": "https://www.sohu.com/a/643308138_121244891", "title": "媒体：杜兰特已经恢复篮网训练就能打季后赛了吗？" }, ... ] } } ] } }

步骤 5：在火车头采集器中使用正则表达式提取网址

在火车头采集器中，添加一个自定义页面处理器。
在页面处理器中，使用以下正则表达式提取列表页中的网址：

href="(.*?)"

步骤 6：配置火车头采集器进行自动采集

在火车头采集器中，配置采集任务，并将其指向搜狐娱乐列表页。
选择自定义页面处理器，并设置正则表达式。
运行采集任务，火车头采集器将自动提取列表页中的网址。

完整火车头采集器代码：

<job> <sites> <site url="https://www.sohu.com/xtopic/TURBd01EVTFPVFUz"> <includeUrls>^(.*?)$</includeUrls> <pageProcessors> <customPageProcessor class="com.example.CustomPageProcessor"> <pattern>href="(.*?)"</pattern> </customPageProcessor> </pageProcessors> </site> </sites> </job>
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容