data-value在div中算属性的一种吗？可以直接通过表达式查询吗

我想将套餐中部分可以供选择的值爬取出来，所以先得到了这样的一个集合

import requests
import re
import os
from lxml import etree
from bs4 import BeautifulSoup

if __name__ == "__main__":

    # 爬取页面源码数据
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }   # UA伪装
    url = 'https://item.jd.com/10026876494242.html'

    page = requests.get(url=url, headers=headers)
    page_text = page.text
    soup = BeautifulSoup(page_text,"html.parser")
    choose_list = soup.find_all("div",{"id":"choose-attrs"})
    print(choose_list)

执行后得到

[<div id="choose-attrs">
<div class="li p-choose" data-idx="0" data-type="颜色" id="choose-attr-1">
<div class="dt">选择颜色                                                </div>
<div class="dd">
<div class="item" data-sku="10026876494233" data-value="红色">
<b></b>
<a clstag="shangpin|keycount|product|yanse-红色" href="#none">
<img alt="红色" data-img="1" height="40" src="//img13.360buyimg.com/n9/s40x40_jfs/t1/188751/27/9518/163751/60d01092E2c530e92/1b74c84a46058a5a.jpg" width="40"/><i>红色</i>
</a>
</div>
<div class="item" data-sku="10026876494236" data-value="绿色">

后面太多省略了，然后我想要的就是这个data-value，但是按照自己写的表达式要么报错要么返回为空，该怎么写呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

江天暮雪丨 2021-06-21 13:02

关注

个人习惯使用Xpath：

import requests
from lxml import etree

if __name__ == "__main__":
    # 爬取页面源码数据
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/63.0.3239.132 Safari/537.36 '
    }  # UA伪装
    url = 'https://item.jd.com/10026876494242.html'

    res = requests.get(url, headers=headers).text
    tree = etree.HTML(res)

    # 颜色选择
    attr_1 = tree.xpath('//div[@id="choose-attr-1"]')[0]
    value_list = attr_1.xpath('./div[2]/div/@data-value')  # /@data-value 表示取出该元素的 data-value属性
    print(value_list)

    # 版本选择
    attr_2 = tree.xpath('//div[@id="choose-attr-2"]')[0]
    version_list = attr_2.xpath('./div[2]/div/@data-value')
    print(version_list)

# result: ['红色', '绿色', '蓝色', '紫色', '白色', '黑色'] ['64G(官网标配)', '128G(官网标配)', '256G(官网标配)', '128G直播', '256G直播',
# '64G(套餐一配原装20W闪充套装)', '128G(公开版)', '256G(公开版)', '128G(128G+原装MagSafe磁吸)', '128G (套餐二6期免息)', '128G (套餐二12期免息)',
# '256G (套餐二12期免息)', '256G(256G+原装MagSafe磁吸)', '128G+Beats Solo3', '256G(套餐二6期免息)']

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

请问div后面跟的属性data-v-e20faf64是什么意思，爬虫爬取的话有什么不一样 python 爬虫
2022-03-20 15:45

回答 1 已采纳直接用class爬就行：//div[@class='so-items-normal']
请问div后面跟的属性“data-v-e20faf64”是什么意思 html5 javascript
2020-12-09 10:05

回答 1 已采纳在Vue开发中，会遇到html被浏览器解析后，在标签中出现'data-v-xxxxx'标记比如： <div data-v-fcba8876 class="xxx"> aaa<
python在正则表达式中如何提取a标签中的内容？ python
2019-07-16 09:49

回答 3 已采纳用正则，然后获取对应组。 ```python #encoding=utf-8 import re data = '记事本' regex = '(.*?)' print(re.match(r
Python-pyquery一个解析HTML的库类似jQuery
2019-08-10 02:52

2. **DOM操作**: 支持CSS选择器、XPath表达式，可以方便地查找、遍历、修改DOM元素。 3. **轻量级**: PyQuery的体积小巧，性能优秀，适合在各种项目中使用。 4. **兼容性**: PyQuery与lxml库紧密集成，支持XML和HTML...
js得到一个值后传给html后修改div中的data-percent属性
2016-08-11 08:06

回答 5 已采纳你这个data-parcent应该是给插件用的属性，动态修改有可能插件初始化后没有效果，最好看下组件的api或者全部用js来输出就没这个问题 ``` ```
python中binascii.Error: Invalid base64-encoded string问题怎么解决？ python
2022-08-01 22:13

回答 2 已采纳请看👉 ：python_base64_binascii.Error: Incorrect padding解决
python爬虫正则表达式re.findall只能获取众多链接中的一个 python
2020-09-29 22:54

回答 2 已采纳试一下下面这种 ``` regex = re.compile('') for i in re.findall(regex,text): print(i) ``` ![图片说明](h
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
2020-09-30 21:07

Eastmount的博客欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给...
python 中pandas的value_counts是怎么算的？ python
2017-06-26 08:42

回答 1 已采纳 pd.value_counts（）方法是一个计数的方法。下面为对所得的result进行解析： result左侧的1,2,3,4,5为在data中出现的所有数字。value_counts为对data每
ajax中返回了一个jsonobject，能用EL表达式操作它吗？ ajax
2017-08-24 06:34

回答 5 已采纳应该是不可以的，，EL表达式实在服务器端运行的，服务器会将EL表达式计算出来，填充到用到的地方。这个你可以做一个EL表达式，用网页访问一下，查看网页源码。 js运行在前端，，所以，ajax返
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
[python爬虫] 正则表达式使用技巧及爬取个人博客实例
2017-10-18 18:15

Eastmount的博客这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容，主要简单介绍Python正则表达式爬虫，同时讲述常见的正则表达式分析方法，最后通过实例爬取作者的个人博客网站。希望这篇基础文章对您有所帮助，...
Python中一些简单的正则表达式（爬虫所需(.*?)）
2018-04-18 11:03

Kanny广小隶的博客在之前，我一直都是一个谈正则表达式色变的人。因为正则表达式实在是太多太多，想要记得除非是经常用，否则也很难完全掌握其中所有的内容。所以这些东西都是现用现查，然后要一个一个的搜索，将自己所需要的进行查找...
对Python3 解析html的几种操作方式小结
2020-09-19 15:09

- **提取属性**：使用`./a/text()`和`./a/@href`等XPath表达式来提取文本内容和链接地址。 #### 其他常见解析方法除了`lxml`之外，还有一些其他的库可以用来解析HTML： - **BeautifulSoup**：这是一个非常流行的...
没有解决我的问题, 去提问

悬赏问题

¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化

码龄粉丝数原力等级 --

data-value在div中算属性的一种吗？可以直接通过表达式查询吗

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

data-value在div中算属性的一种吗？可以直接通过表达式查询吗

2条回答 默认 最新

悬赏问题

2条回答默认最新