Python 3 如何用BeautifulSoup抓取配套的超链接？

目标是在这个天猫搜索页面上抓取与产品名配套的产品页超链接

 <p class="productTitle">

<p class="productPrice">

<em title="99.00"><b>¥</b>99.00</em>

 </p><a href="//detail.tmall.com/item.htm?id=538491424201&amp;skuId=3921901643206&amp;user_id=826813153&amp;cat_id=55778004&amp;is_b=1&amp;rn=fe7996c620a7e58ef91046c7b2ef0d24" target="_blank" title="TATA木门 简约卧室门实木复合门卫生间门定制室内厨房门特权订金" data-p="1-11" atpanel="1-11,538491424201,50022358,,spu,1,spu,826813153,,,">
TATA<span class="H">木门</span> 简约卧室门实木复合门卫生间门定制室内厨房门特权订金
</a>

</p>

我写的抓取产品名和价格的爬虫代码如下

import requests 
import bs4 
import re 
import pandas as pd

url='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.1.171973e4CgRths&cat=55778004&q=%C4%BE%C3%C5&sort=s&style=g&from=.detail.pc_1_searchbutton&industryCatId=55778004#J_Filter'
response = requests.get(url).text

soup = bs4.BeautifulSoup(response,'html.parser')
name=[i.text.strip() for i in soup.findAll(name='p',attrs = {'class':'productTitle'})]
sale_price =  [float(i.text[2:-1]) for i in soup.findAll(name='p',attrs = {'class':'productPrice'})]


jiaju = pd.DataFrame({'商品名':name,'卖价':sale_price,'
jiaju

如何用soup抓取和商品名和卖价配套的产品页超链接？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kun_hello 2018-09-18 03:12
关注
去参考BeautifulSoup的文档吧
先获取所有的商品列表循环然后根据里面的class 或者正则取链接、名称、价格

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
python beautifulsoup 解析html无法获得全部html代码 python
2021-01-04 15:04

回答 3 已采纳因为这个div里面的内容是用ajax动态加载的，而用request获取的是网页的源代码（就是“右键菜单->查看网页源代码”的内容），不包含ajax动态加载的内容。所以要找到ajax加载数据的
python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
python 3利用BeautifulSoup抓取div标签的方法示例
2020-12-24 09:56

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例，分享出来供大家参考学习，下面来看看详细的介绍：示例代码： # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #...
python爬小说，正文怎么都换不了行，怎么办？ python
2022-04-17 19:49

回答 1 已采纳 1、你的循环没有退出的语句，没有页数，就出错了。 2、正文不换行的问题改一下代码 for x in text: f.write(x) f.write('\r\n') # 改
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
Python爬虫包 BeautifulSoup 递归抓取实例详解
2020-09-21 10:38

主要介绍了Python爬虫包 BeautifulSoup 递归抓取实例详解的相关资料,需要的朋友可以参考下
python爬取文章不能按顺序循环 python 有问必答
2021-12-14 01:41

回答 2 已采纳这样改一下即可： def text_create(name, msg): desktop_path = "F:\\txt\\" full_path = desktop_path + n
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
python爬虫如何取出定位标签下的所有子集文本 python
2021-03-27 16:46

回答 1 已采纳将原代码中这段内容： for j in page_spec_data: for k in j.a: # print(k.string) value_word
python基于BeautifulSoup实现抓取网页指定内容的方法
2020-12-25 07:53

本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下： # _*_ coding:utf-8 _*_ #xiaohei.python.seo.call.me:) #win+python2.7.x import urllib2 from bs4...
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据示例
2020-09-18 09:21

主要介绍了python3 BeautifulSoup模块使用字典的方法抓取a标签内的数据,结合实例形式Fenix了python3 BeautifulSoup模块进行数据的抓取相关操作技巧,需要的朋友可以参考下
python中beautifulsoup的作用_Python3中BeautifulSoup的使用方法
2021-01-14 22:10

Screwberry的博客 BeautifulSoup的使用我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有id或class来对作区分，...
没有解决我的问题, 去提问

悬赏问题

¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器

Python 3 如何用BeautifulSoup抓取配套的超链接？

2条回答 默认 最新

悬赏问题

2条回答默认最新