为什么爬虫时使用.text/.get_text()无法进行标签内文本的提取

为什么爬虫时使用.text/.get_text()无法进行标签内文本的提取，是代码有问题还是方法不对呢？希望好心的人可以指点一下，谢谢

这个是我的代码

这个是我的运行结果

这个是我需要爬取的页面源码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

无疆76 2024-10-18 19:11

关注

以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

从你提供的代码和运行结果来看，问题可能出在获取文本内容的方式上。你使用的是 .get_text() 方法来获取标签内的文本内容，但在你的HTML结构中，产品名称、报价市场等文本信息实际上被包含在一个<a>标签内部，而这个<a>标签外面还有一个<td>标签。因此，直接使用 .get_text() 获取到的可能是包括<a>标签内的完整文本，包括链接和可能存在的其他格式化的文本。

为了正确获取你想要的数据，你应该首先定位到包含所需数据的<td>标签，然后再从该标签中获取文本内容。你可以使用 .text 或 .get_text() 方法来获取。这里是一个修改后的代码示例：

from bs4 import BeautifulSoup

# 假设你已经有了page这个BeautifulSoup对象
div = page.find("div", class_="sjs_top_cent_erv")  # 注意这里修正了class属性的引用方式
trs = div.find_all('tr')[1:]  # 获取所有的tr标签，并去掉第一行（通常是表头）

for tr in trs:
    tds = tr.find_all('td')  # 获取当前行所有的td标签
    name_td = tds[0]  # 产品名称所在的td标签
    source_td = tds[1]  # 报价市场所在的td标签
    kind_td = tds[2]  # 规格所在的td标签
    max_price_td = tds[3]  # 最高价所在的td标签
    min_price_td = tds[4]  # 最低价所在的td标签
    average_td = tds[5]  # 平均价所在的td标签
    data_td = tds[6]  # 报价日期所在的td标签
    change_td = tds[7]  # 走势图所在的td标签（这里可能需要特殊处理，因为它包含了图片和链接）
    
    name = name_td.get_text()  # 获取产品名称的文本内容
    source = source_td.get_text()  # 获取报价市场的文本内容
    kind = kind_td.get_text()  # 获取规格的文本内容
    max_price = max_price_td.get_text().strip()  # 获取最高价的文本内容，可能需要去除多余的空格或格式符
    min_price = min_price_td.get_text().strip()  # 同上处理最低价
    average = average_td.get_text().strip()  # 同上处理平均价
    data = data_td.get_text().strip()  # 获取报价日期的文本内容，并去除可能的格式符或额外内容（如果需要处理图片和链接，可能需要进一步解析）
    print(name, source, kind, max_price, min_price, average, data)  # 打印获取到的数据

注意：在解析包含复杂HTML结构的数据时，可能需要更精细地处理不同的情况，比如处理链接、图片或其他元素。上面的代码是一个基本的示例，可能需要根据你的实际HTML结构和需求进行调整。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

两周从爬虫小白变大神，看完你就知道我不是标题党了【五万字教程，建议收藏】
2021-09-28 09:39

五包辣条！的博客大家好，我是辣条，今天给大家带来最硬核的爬虫教程。目录 Python爬虫第一天什么是爬虫爬虫与Web后端服务之间的关系 Python爬虫技术的相关库常见反爬虫的策略爬虫库urllib【重要】作业爬虫第二天 ...
Node.js | 搭建后端服务器（含内置模块 http | url | querystring 的使用）
2022-08-21 11:28

Baker-Chen的博客通过使用NodeJs的内置模块http快速搭建一个node后端服务器，并使用内置模块url等扩展其功能：实现后端路由、将node作为中间层使用、使用node实现爬虫
爬虫基本库的使用
2021-12-15 20:01

狒狒fei狒的博客但如果我们用爬虫get或post请求时，实际上是两个完全不相关的会话，这个时候我们就需要设置cookies来维持相同的会话。有一个笨方法就是这两个请求都设置相同的cookies，这当然可以，但我们有更简单的方法——Session...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客上次整理的爬虫教程反响不错，但是还是有小伙伴表示不够细致，今天带了升级版，全文很长，建议先收藏下来。一、爬虫基础爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类 ...
爬虫科普：小白也能玩爬虫（一）
2025-03-01 23:26

愚戏师的博客本篇将基于小白的视角去探索爬虫。
多平台比价系统实战：基于Python的淘宝、京东、拼多多商品爬虫开发
2025-06-11 23:07

Python爬虫项目的博客自动控制浏览器，处理JS动态内容Playwright：更高效的无头浏览器解决方案aiohttp：异步请求库，提升效率pymongo：MongoDB数据库连接redis：存储代理池与爬虫状态pandas：数据分析与清洗FastAPI：后端接口开发本文...
2024 python 求职常见面试题（北京爬虫/后端）
2021-11-15 19:14

JHC0000abc的博客 python 优缺点 ...可写可不写，一行定义多个值时使用 python中的变量利用del删除对应的内存空间的数值变量会改变内存空间，常量不会断言断言可以在条件不满足程序运行的情况下直接返回错误，而不必等待
python爬虫入门详细教程-采集云南招聘网数据保存为csv文件
2023-10-14 23:33

TK918的博客采集云南招聘网的招聘数据、招聘企业的基本信息，并把采集的数据存储为csv文件，使用的数据提取技术是xpath来解析html中的数据，非常适合新手入门学习爬虫，此站点还涉及简单的图片验证码，新手也可以进行尝试
【BeautifulSoup文本提取终极指南】：9种高效提取标签内文本的实战技巧
2025-10-30 17:05

QuickTrans的博客掌握BeautifulSoup提取标签内文本的高效方法，解决网页数据抓取难题。涵盖get_text()、strings与stripped_strings等9种实战技巧，适用于HTML解析、爬虫开发等场景，精准提取所需内容。方法简单高效，值得收藏。
python的爬虫简单使用
2023-07-25 23:23

无语堵上西楼的博客网络爬虫，其实叫作网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月18日

为什么爬虫时使用.text/.get_text()无法进行标签内文本的提取

1条回答 默认 最新

问题事件

1条回答默认最新