有关web scraper的提问

web scraper相关问题

需求：一个有分页器的列表，需要获取每一页的每一个a链接，并且点击a链接进入详情页获取信息。
遇到的问题

a链接可以预览到但没有数据
元素预览：

数据预览：

该网站点击“下一页”后会刷新网页，于是我参考了这篇文章进行翻页
https://zhuanlan.zhihu.com/p/94387525
但是获取到的数据只有一页
我的截图：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-06-09 12:18
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

解答

你遇到的问题是使用 web 爬虫获取有分页器的列表中每一页的每一个 a 链接，并点击 a 链接进入详情页获取信息。

问题的关键是如何获取 a 链接的数据元素。通常情况下，a 链接的数据元素是通过 JavaScript 动态生成的，这使得爬虫难以获取。

解决方案：

使用 requests 和 BeautifulSoup 库来获取网页内容。
使用 Selenium 库来模拟浏览器行为，点击 a 链接并获取详情页内容。
使用 regex 库来提取 a 链接中的数据元素。

以下是一个简单的示例代码：

import requests from bs4 import BeautifulSoup from selenium import webdriver import re # 获取列表页内容 url = "https://example.com/list" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取每一页的每一个 a 链接 links = [] for link in soup.find_all("a"): links.append(link.get("href")) # 使用 Selenium 模拟浏览器行为，点击 a 链接并获取详情页内容 driver = webdriver.Chrome() for link in links: driver.get(link) # 获取详情页内容 detail_content = driver.page_source # 提取数据元素 data = re.search(r"数据元素正则表达式", detail_content).group() print(data) # 关闭浏览器 driver.quit()

请注意，这只是一个简单的示例代码，实际情况中可能需要根据具体情况进行修改。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

从零到可落地的企业级 RAG：拆解微软 Kernel Memory 的架构心法
2025-11-24 23:51

许泽宇的技术分享的博客 / 外部系统导入进入 KM 的数据摄取流水线，完成提取、分块、向量化、入库在线查询路径：用户通过 /ask 或客户端 SDK 提问 KM 根据问题在索引中检索相关分块组装上下文 + 提示词（Prompt），调用 LLM 生成答案 ...
Python开发：从入门到精通
2025-07-16 08:45

莲华君的博客 7.5 Flask/Django入门：构建你的第一个Web应用。第8章：数据之道——数据分析与可视化 8.1 NumPy：科学计算的基石，处理多维数组。 8.2 Pandas：数据处理与分析的瑞士军刀。 8.3 Matplotlib & Seaborn：让...
云计算第四阶段： cloud二周目 07-08
2024-10-14 15:38

飞酱不会电脑的博客我们本节学的好多控制器，都有差异和区别，可以按照类似以下的提示词，来对AI提问，得到更加符合工作使用环境的回答。至此云计算cloud二周目内容更新完毕!大家有想练习的，可以去华为云、阿里云等云平台，创建帐号，...
【智能体三】告别查攻略到凌晨！从0到1用Dify搭建「私人旅行管家」智能体：我的在线旅游智能体搭建全记录
2025-11-11 16:01

Try, Again的博客注册登录Dify并准备配置工具搭建在线旅游助手需要联网的参考资料作为参考资料来源，我们在dify工具菜单下，搜索Google(可以使用其他搜索引擎)，维基百科和抓取网页工具webscraper，然后安装工具。...
Claude 用户狂喜：这个“指令库”正在让 AI 帮你写完整个项目你写完整个项目
2025-10-12 10:55

贡献者手册的博客展示了AI编程的新范式——通过结构化指令而非零碎提问生成完整项目。该项目提供10+主流技术栈模板（如React、Node、Python等），将需求文档转化为可执行代码，解决了AI编程中上下文缺失的痛点。这种"开箱即用&...
DeepSeek大模型与Dify AI应用平台整合入门_deepseek dify
2025-03-03 23:16

AI大模型学习不迷路的博客 ## 技能 ### 技能1：使用知识库工具进行知识库检索相关内容 ### 技能2：使用time工具获取当前的时间 ### 技能3：使用searxng功能进行联网搜索 ### 技能4：使用webscraper功能对搜索到的相关内容进行爬取，并进行...
《基于语言模型的行业信息获取系统：设计与实现》
2024-09-06 21:15

Alex程的博客设计与实现》 GitHub 链接 GitHub: Awakcn/Industry-Information-Scraper 更新日期：2024/9/13 新增向量评分方案（余弦相似度），优化问答机器人（回答参考网页号输出）等 1. 引言 1.1 研究背景随着信息技术的快速...
python 爬虫之路教程
2017-05-04 12:02

Android系统攻城狮的博客原址摘要： From：https://piaosanlang.gitbooks.io/spiders/content/ 爬虫入门初级篇 IDE 选择： PyCharm(推荐)、... python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支
bloop代码结构解析：探索Rust后端与React前端的协同工作
2025-10-21 09:35

方玮妙的博客 bloop是一个用Rust编写的快速代码搜索引擎，它允许用户用自然语言提问、搜索代码并使用现有代码库作为上下文生成补丁。该项目采用现代化的前后端分离架构，结合了高性能的Rust后端和响应式的React前端，通过Tauri...
dify初级入门示例--搭建个人旅游在线助手
2025-11-07 15:55

天草二十六_简村人的博客本文新增的技能是：结构化的提示词撰写技巧变量的使用方法二、安装工具在插件中心，依次安装以下三个工具： Google webscraper wikipedia google是需要授权 https://serpapi.com/dashboard 拷贝这里的api key给...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月9日

有关web scraper的提问

6条回答 默认 最新

解答

问题事件

6条回答默认最新