dlucode7 2018-09-15 09:24 采纳率: 0%
浏览 2638

Python 3 如何用BeautifulSoup抓取配套的超链接?

目标是在这个天猫搜索页面上抓取与产品名配套的产品页超链接

 <p class="productTitle">

<p class="productPrice">

<em title="99.00"><b>¥</b>99.00</em>

 </p><a href="//detail.tmall.com/item.htm?id=538491424201&amp;skuId=3921901643206&amp;user_id=826813153&amp;cat_id=55778004&amp;is_b=1&amp;rn=fe7996c620a7e58ef91046c7b2ef0d24" target="_blank" title="TATA木门 简约卧室门实木复合门卫生间门定制室内厨房门特权订金" data-p="1-11" atpanel="1-11,538491424201,50022358,,spu,1,spu,826813153,,,">
TATA<span class="H">木门</span> 简约卧室门实木复合门卫生间门定制室内厨房门特权订金
</a>

</p>

我写的抓取 产品名 和 价格的爬虫代码如下

import requests 
import bs4 
import re 
import pandas as pd

url='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.1.171973e4CgRths&cat=55778004&q=%C4%BE%C3%C5&sort=s&style=g&from=.detail.pc_1_searchbutton&industryCatId=55778004#J_Filter'
response = requests.get(url).text

soup = bs4.BeautifulSoup(response,'html.parser')
name=[i.text.strip() for i in soup.findAll(name='p',attrs = {'class':'productTitle'})]
sale_price =  [float(i.text[2:-1]) for i in soup.findAll(name='p',attrs = {'class':'productPrice'})]


jiaju = pd.DataFrame({'商品名':name,'卖价':sale_price,'
jiaju

如何用soup抓取和商品名和卖价配套的产品页超链接?

  • 写回答

2条回答 默认 最新

  • kun_hello 2018-09-18 03:12
    关注

    去参考BeautifulSoup的文档吧
    先获取所有的商品列表 循环 然后根据里面的class 或者正则取链接、名称、价格

    评论

报告相同问题?

悬赏问题

  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP
  • ¥15 Python turtle 画图
  • ¥15 stm32开发clion时遇到的编译问题
  • ¥15 lna设计 源简并电感型共源放大器