如何用Python从零开始爬取网页并提取标题和链接？

常见技术问题：使用 `requests` + `BeautifulSoup` 爬取网页时，代码能正常获取响应（状态码200），却始终提取不到 `<title>` 标签内容或 `<a>` 链接，返回 `None` 或空列表。根本原因常有三类：一是网页标题实际位于 `<meta property="og:title">` 或 `<meta name="title">` 中，而非标准 `<title>` 标签；二是链接被 JavaScript 动态渲染（如 SPA 应用），`requests` 无法执行 JS，导致 `soup.find_all('a')` 找不到真实链接；三是 HTML 解析器选择不当（如默认 `html.parser` 对嵌套不良标签容错差），或未指定正确编码（如网页声明 `charset=gbk` 但未设置 `response.encoding='gbk'`），造成乱码与解析失败。此外，忽略 `User-Agent` 头易触发反爬返回 403 或空白页，而未检查 `response.raise_for_status()` 则掩盖请求异常。这些问题在入门实践中高频出现，需结合开发者工具 Network 面板验证响应体真实性，并优先选用 `lxml` 解析器、显式设置编码与请求头。</title>

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

马迪姐 2026-04-11 17:35

关注

```html

一、现象层：表象异常——“状态码200，却取不到title和a标签”

这是初学者最常报错的场景：代码无语法错误，response.status_code == 200，但 soup.find('title') 返回 None，soup.find_all('a') 返回空列表 []。表面看是“解析失败”，实则响应体内容与预期严重偏离——可能返回了反爬中间页、JS占位符、压缩空白HTML，甚至403伪装成200的“软封锁”页面。

二、验证层：诊断先行——用开发者工具穿透HTTP真相

在浏览器中按 <kbd>F12</kbd> → 切换到 Network 面板 → 刷新页面 → 找到目标URL请求 → 点击 → 查看 Response 标签页（非Preview）
对比：requests.get(url).text 输出是否与Network中Response原始内容一致？若不一致，说明存在：gzip未解压、charset误判、或服务端基于User-Agent返回差异化HTML
关键动作：右键 → Copy → Copy response → 粘贴至本地文件，用BS4直接解析该文件，排除网络环节干扰

三、根源层：三大核心缺陷分类剖析

类别	典型表现	技术本质	检测方式
语义迁移	`<meta property="og:title">` 存在，`<title>`为空或为模板文本	SEO/社交分享优化导致标题语义外移	`soup.find('meta', property='og:title')`
渲染延迟	`<div id="app"></div>` 占满body，`<a>`仅存在于JS执行后DOM	requests仅获静态HTML骨架，无JS引擎执行能力	Network → Disable Cache + Disable JS → 刷新，若链接消失则确认为JS渲染
解析失真	中文乱码、`<li><a>`嵌套错位、`find()`匹配失效	`html.parser`容错弱；`response.encoding`未同步<meta />	`print(repr(response.content[:100]))` 观察原始字节；`print(soup.original_encoding)`

四、工程层：鲁棒性增强实践方案

请求头标准化：必须设置 'User-Agent'、'Accept'、'Accept-Language'，建议复用主流浏览器指纹
编码显式声明：优先使用 response.apparent_encoding，再 fallback 到 response.headers.get('content-type') 中的 charset
解析器升级：安装 lxml（pip install lxml），构造时强制指定 BeautifulSoup(html, 'lxml') —— 其容错率比 html.parser 高3–5倍

多源标题兜底：

def get_page_title(soup):
    return (soup.title.string.strip() if soup.title and soup.title.string else None) \
        or soup.find('meta', property='og:title').get('content') if soup.find('meta', property='og:title') else None \
        or soup.find('meta', attrs={'name': 'title'}).get('content') if soup.find('meta', attrs={'name': 'title'}) else None

五、架构层：超越requests+BS4的演进路径

当动态渲染占比＞30%、反爬策略升级（如WebDriver检测、行为指纹）、或需会话维持（登录态、WebSocket心跳）时，应启动架构升维：

graph LR A[requests+BS4] -->|静态页面/轻量采集| B(成熟方案) A -->|SPA/SSR/风控页| C[Playwright/Puppeteer] C --> D[支持JS执行、截图、网络拦截、真实用户行为模拟] C --> E[可导出PDF/HTML快照供BS4二次解析] B --> F[生产环境必须添加：重试机制、代理池、Referer轮换、请求间隔控制]

六、防御层：反模式警示与避坑清单

❌ 忽略 response.raise_for_status() —— 掩盖403/429/503等非200但被伪装的响应
❌ 直接用 soup.text 提取链接 —— 应始终用 tag.get('href') 避免文本污染
❌ 在未验证 response.content 长度时调用BS4 —— 可能是1KB的反爬提示页
✅ 建立采集健康度监控：记录每次请求的 len(response.content)、soup.title 是否存在、len(soup.find_all('a')) 分布直方图
✅ 对GB2312/GBK网页，强制 response.encoding = 'gbk' 后再 response.text，而非依赖自动探测

七、高阶延伸：从爬虫到数据治理的认知跃迁

对5年以上从业者而言，此问题已不仅是技术选型问题，更是数据可信度治理起点：需建立「HTML源可信等级」评估模型——将页面按渲染方式（SSR/CSR/SSG）、反爬强度（Header校验/JS挑战/生物特征）、结构稳定性（Schema.org标记/微数据）打标，并驱动后续解析策略路由。例如：CSR页面自动触发Playwright快照，SSR页面启用lxml增量解析，而含application/ld+json的页面优先提取结构化数据，彻底绕过DOM遍历。

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python 数据爬取（爬虫）：从零开始学会爬取网页数据
2025-03-31 10:56

一只蜗牛儿的博客本文介绍了如何使用 Python 编写简单的网页爬虫程序，涵盖了静态网页的抓取、动态网页抓取、批量抓取、数据存储和反爬虫策略等内容。通过requests和Selenium等工具，我们能够高效地抓取各种网页数据。编写爬虫时，请...
从零开始学Python教程配套代码，从零开始学Python开发案例
2022-12-26 09:21

"从零开始学Python教程配套代码"是一份旨在帮助初学者逐步掌握Python编程技能的资源集合，涵盖了多个实际项目案例，旨在让学习者通过实践来加深对Python的理解。 1. **爬取套图**：在Python中，可以使用requests库...
Python爬虫教程，零基础教程（爬取网页数据）
2024-07-30 17:21

Python_trys的博客本文简单介绍了爬虫的基础知识以及需要用的库和方法，并做了非常简单的示例。总地来说，爬虫就是模拟网络请求，并解析、提取出我们想要的数据。爬虫可以帮助我们更快地获取网站上的数据，为工作和生活带来诸多便利。...
利用Python爬取网页图片
2024-12-06 15:28

Python_trys的博客因此考虑可能该元素是动态...于是先试着用 Python 的 requests提取该组件，进而获取img的src然后使用 urllib.request.urlretrieve逐个下载图片，从而达到批量获取资料的目的，思路好了，下面应该告诉程序要爬取的url为...
入门级教程：手把手带你学会用Python爬取网页数据！！
2024-07-17 17:44

小尤笔记的博客本文简单介绍了爬虫的基础知识以及需要用的库和方法，并做了非常简单的示例。总的来说，爬虫就是模拟网络请求，并解析、提取出我们想要的数据。爬虫可以帮助我们更快地获取网站上的数据，为工作和生活带来诸多便利。...
学会使用Python爬取网页数据
2024-10-13 14:15

master_chenchengg的博客想象一下，如果你是一名探险家，在一片未知的丛林中寻找宝藏，那么Python就是你手中的指南针和地图，帮助你找到正确的方向，并且安全地将宝藏带回家。你可以把这里当作自己的家，无论是工作之余的小憩，还是寻找灵感...
Python 爬虫项目：爬取电商商品基础信息，提取标题与价格
2026-01-12 13:21

python 爬虫工程师的博客通过requests库获取网页数据，利用lxml+XPath解析结构化页面，提取商品标题和价格信息，并进行格式化处理。针对电商反爬机制，提供了请求头配置、延迟设置等解决方案。文章还包含常见问题解答和优化建议，最终整合...
Python 爬虫项目：爬取 B 站视频标题与播放量
2026-01-13 12:43

python 爬虫工程师的博客本文详细介绍了如何构建一...文章从环境准备、爬虫原理、代码实现到反爬策略进行了全面讲解，提供了可直接复用的完整代码，适合作为Python爬虫进阶学习的实战案例。所有数据采集过程均遵守B站使用规范，确保合法合规。
Python爬虫入门实战课程项目通过多个实际案例教学从零开始掌握使用Python编程语言进行网络数据抓取与分析的核心技能涵盖网页解析数据提取清洗存储及简单可视化全流程重.zip
2026-01-05 21:43

Python作为当前流行的编程语言之一，以其简洁高效、功能强大深受广大开发者的喜爱。在数据分析、网络爬取、自动化测试等多个领域都能见到Python的身影。网络数据抓取与分析是数据科学领域中一项重要的技能，而Python...
【爬虫保姆级教程】零基础用 Python 爬取你的第一个网页
2025-09-27 14:38

深蓝电商API的博客教程从环境准备开始，指导安装Python和requests、beautifulsoup4库；然后选择一个静态测试网页作为爬取目标；接着分步骤讲解代码实现过程，包括发送请求、解析HTML和提取数据；最后强调爬虫的法律合规性，并给出进阶...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日