python爬虫如何取出定位标签下的所有子集文本

如图，想要爬取网页这一部分字符串，并且按键值对的格式存下来，我的代码只能取到每个键值对value的第一个元素，比如Materials这里，只能取到Matel, 后面的几个都拿不到，代码如下

from typing import Text
from bs4 import BeautifulSoup
import requests
from PIL import Image
import piexif
import lxml
from lxml import etree
 
 
 
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
    'Accept-Language':'zh-CN'
}
 
 
page_respond = requests.get(url = 'https://www.gooood.cn/huahui-engineering-design-and-technological-innovation-center-china-by-huahui-group-we-studio.htm',headers = headers)
page_Soup = BeautifulSoup(page_respond .content, 'lxml')




page_spec_label = page_Soup.findAll('span', class_= 'label-text')
page_spec_data = page_Soup.findAll('div', class_= 'spec-data')

 
key_word = []
value_word = []
 
for i in page_spec_label:
    # print(i.string)
    key_word.append(i.string)
 
for j in page_spec_data:
    for k in j.a:
        # print(k.string)
        value_word.append(k.string)
 

 
dict_word = dict(zip(key_word,value_word))
print(dict_word)

结果如下（由于在headers里把语言定成了中文，可能跟网页有时候显示的不一样）

{'设计公司': '华汇集团｜伍维设计工作室', '位置': ' 中国 ', '类型': ' 建筑 ', '材料': ' 金属 ', '标签': ' 浙江 ', '分类': ' 办公建筑 '}

材料后面的值应该有4个，分类应该有2个，请问改如何抓取才能拿到呢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-27 17:15
关注
将原代码中这段内容：

for j in page_spec_data: for k in j.a: # print(k.string) value_word.append(k.string)

改成如下即可：

for j in page_spec_data: s = j.find_all('a') if len(s)>1: l=';'.join([x.string for x in s]) elif len(s)==1: l=s[0].string else: l='' value_word.append(l)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫详解[项目源码]
2025-11-12 16:13

URI（统一资源标识符）是用于标识互联网资源的字符串，而URL（统一资源定位符）是URI的子集，用于在互联网上定位资源的具体位置。Python标准库urllib提供了丰富的功能用于处理URL请求和网页内容的下载。文章中还...
python xpath定位嵌套标签_python爬虫中使用Xpath方法定位a标签中所有的子标签的方法...
2021-02-09 08:20

南至挚爱的博客老板扔给了我一个陈年语料，让我通过文章标题回原网址爬取一下对应的doi号，文章很好定位，但是在解析标题的时候遇到了问题，a标签中混合了i、sub、sup标签，在使用xpath时不能直接使用text方法获取，所以在这里记录...
python爬虫详解
2021-07-11 21:56

穆瑾轩的博客 python爬虫简介 1、基本概念 1.1、什么是爬虫网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网...
-heartpulse-用python编写的爬虫项目集合-PythonCrawler.zip
2025-02-26 15:36

标签“爬虫”和“python”表明该集合包含的项目均使用Python语言编写，涉及爬虫技术。Python作为一种流行的编程语言，在网络爬虫领域因其简洁易读和强大的库支持而广受欢迎。标签中的“爬虫”是该项目集合的核心内容...
python爬虫的基本教程及实例
2024-02-18 12:55

Python爬虫是编程领域中一个热门的子领域，主要用于自动抓取互联网上的信息。这个基本教程及实例集合为初学者提供了宝贵的入门资源。下面将详细解释Python爬虫的基础知识、重要概念以及如何通过实例进行学习。一、...
Python爬虫 json库应用详解
2021-01-20 11:33

Python爬虫在处理数据时，经常需要与JSON格式的数据打交道，因为JSON作为一种轻量级的数据交换格式，广泛用于网络通信和数据存储。Python内置的json库提供了方便的接口，用于在JSON和Python对象之间进行转换。一、...
python-爬虫-7
2025-12-03 14:34

主题爬虫通过对特定主题的数据采集、链接相关度估算、内容相关度计算和文本预处理等技术，能够有效地从互联网海量信息中提取出用户关心的内容，满足垂直搜索引擎、舆情监测和商业情报搜索等多方面的应用需求。...
python爬虫中使用Xpath方法定位a标签中所有的子标签的方法
2020-05-29 23:34

天才小呵呵的博客 xpath在解析标题的时候遇到了问题，a标签中混合了i、sub、sup标签，不能直接使用text方法获取，所以在这里记录一下自己的解决方案。（想不到，做完这个任务，我顺便学会了希腊字母的读音:^）
python网络爬虫.pdf
2022-06-06 21:04

【Python网络爬虫技术详解】 Python网络爬虫是一种自动化程序，用于从互联网上抓取大量信息，模拟蜘蛛在网页间爬行的过程。网络爬虫通过识别网页的URL（统一资源定位符）来寻找并下载页面内容。理解网络爬虫的工作...
Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.docx
2022-05-29 03:55

### Python网络爬虫技术知识点详解 #### 一、爬虫概念与原理 - **定义**：网络爬虫（Web Crawler），又称网页蜘蛛或网络机器人，是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。 - **工作流程**： - ...
没有解决我的问题, 去提问

python爬虫 如何取出定位标签下的所有子集文本

1条回答 默认 最新

python爬虫如何取出定位标签下的所有子集文本

1条回答默认最新