想爬取SHEIN的女裙的图片、标题、价格与颜色，但总是报错

import requests
import bs4
import time
import random
import pandas as pd
import openpyxl
dress_info=[]
#获取所有 url
for i in range(1,10):
   url="https://www.shein.com/Clothing-c-2035.html?ici=www_tab01navbar04&scici=navbar_WomenHomePage~~tab01navbar04~~4~~webLink~~~~0&srctype=category&userpath=category%3ECLOTHING&child_cat_id=1727&page="+str(i)+""
headers = {
         "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
         }
print("开始爬取SHElN平台女装品类裙子第%s 页信息....." %(str(i)))
response = requests.get(url=url, headers=headers)

#生成 bs4 对象
bsoup=bs4.BeautifulSoup(response.text,'lxml')
dress_list=bsoup.find('li', class_="list-item")

#bs4 解析文件
for dress in dress_list:    
 photo = dress.find('a').img.jpg()
 titile = dress.find('div', class_='S-product-item__name').text.strip()
 price = dress.find('div', class_='S-product-item__price').text.strip()
 color = dress.find('section', class_='S-product-item__relatecolor-container').text.strip() 
 
 pd1= pd.DataFrame({'photo': photo, 'titile': titile, 'price': price, 'color': color}, index=[0])
 dress_info.append(pd1)
 second=random.randrange(3,5)
 time.sleep(second)
#数据集
dress_info2=pd.concat(house_info)
dress_info2.to_excel('house_info.xlsx',index=False)

想爬取https://www.shein.com/Clothing-c-2035.html?ici=www_tab01navbar04&scici=navbar_WomenHomePage~~tab01navbar04~~4~~webLink~~~~0&srctype=category&userpath=category%3ECLOTHING&child_cat_id=1727&page=1

这个网站1到10页的信息，一直在调试，但是总是会在某个地方有问题，请教下这段代码是哪里有问题？谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

CSDN专家-Time 2021-05-16 13:26

关注

一般是页面没有全部被加载，然后程序已经被读取了。或者这个标签根本不存在。

import requests
import bs4
import time
import random
import pandas as pd
import openpyxl
dress_info=[]
#获取所有 url
for i in range(1,10):
   url="https://www.shein.com/Clothing-c-2035.html?ici=www_tab01navbar04&scici=navbar_WomenHomePage~~tab01navbar04~~4~~webLink~~~~0&srctype=category&userpath=category%3ECLOTHING&child_cat_id=1727&page="+str(i)+""
headers = {
         "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
         }
print("开始爬取SHElN平台女装品类裙子第%s 页信息....." %(str(i)))
response = requests.get(url=url, headers=headers)
#生成 bs4 对象
bsoup=bs4.BeautifulSoup(response.text,'html.parser')
dress_list=bsoup.find('li', class_="list-item")
print(dress_list)
#bs4 解析文件
for dress in dress_list:    
 photo = dress.find('a').img.jpg()
 titile = dress.find('div', class_='S-product-item__name').text.strip()
 price = dress.find('div', class_='S-product-item__price').text.strip()
 color = dress.find('section', class_='S-product-item__relatecolor-container').text.strip() 
 
 pd1= pd.DataFrame({'photo': photo, 'titile': titile, 'price': price, 'color': color}, index=[0])
 dress_info.append(pd1)
 second=random.randrange(3,5)
 time.sleep(second)
#数据集
dress_info2=pd.concat(house_info)
dress_info2.to_excel('house_info.xlsx',index=False)

你把lxml换成 html.parser

然后就发现你获取的页面的li标签压根不存在

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

想爬取SHEIN的女裙的图片、标题、价格与颜色，但总是报错 python 有问必答
2021-05-16 13:22

回答 3 已采纳一般是页面没有全部被加载，然后程序已经被读取了。或者这个标签根本不存在。 import requests import bs4 import time import random import p
阿里云ossClient.putObject 上传文件 objectName 中包含+ 号也会报错，有知道如何解决的吗 java 有问必答阿里云
2022-03-16 14:47

回答 2 已采纳估计是传过去乱码了，然后验签失败了，要么就抓包看请求头，最简单的处理就是文件名urlencode一下，这样你直接返回到前端，前端也不需要做什么应该就能看到原始的信息了ps：你存文件信息，文件名难道还依
python按分类爬取电子商城商品信息
2019-04-30 15:35

blues_phone的博客不同网站解析不同，下面爬取的是电子...2.遍历分类链接，爬取一个分类链接下全部商品，包括分页的商品信息 3.将一个分类链接下的全部商品保存到excel表格，同时记录已爬取的分类链接 4.爬虫结束知识点： 1.requ...
SHEIN 2022届-后台开发笔试题（B卷）
2022-04-03 23:22

private访问范围，abstract，程序分析，interface，算法时间复杂度，HTTP1.0，json,final, 编程删除链表的中间节点，
python读写excel的图片_python解析excel中图片+提取图片
2020-11-27 16:43

weixin_39640883的博客 = '': unzip_msg=unzip_file(zip_file_path)ifunzip_msg: read_img(zip_file_path,img_path)#main if __name__ == '__main__':#excel地址 excel_path = 'C:\\Users\\SHEIN\\Desktop\\test\img.xlsx' #图片目录 img_...
《SHEIN是怎样炼成的》.pdf
2021-09-11 09:48

SHEIN成功之道 SHEIN是一个跨境电商平台，通过数据驱动的方式，实时反映每个国家当前的风格，快速预测需求并实时调整库存，从而降低浪费、低效和被动降价的发生。 SHEIN的成功之道可以归结为以下几个方面： 1. ...
2023-11-28 事业-代号s-shein招商发布会-记录与分析
2023-11-28 21:00

悟世者的博客有个在shein上的新商户的经验分享此商户做的是宠物用品，shein的运营经理主动找上他去入驻shein 之前在做亚马逊, 而且做的量不低做shein上他专门挑选适合年轻女性的款式和颜色的宠物用品上货架后, 第二天就有了...
python接口测试框架与自动化实战_python+requests接口自动化测试框架实例详解教程...
2020-11-24 10:04

weixin_39777404的博客首先，可以看到，小编这次是用python自带的requests来进行接口测试的，相信有心的朋友已经看出来了，python+requests这个模式是很好用的，它已经帮我们封装好了测试接口的方法，用起来很方便。这里呢，我就拿get和...
Shein APM-crx插件
2021-03-23 12:02

用于查看shein中后台页面元素的点击频率，协助中后台产品的布局、功能规划。 APM系统对页面元素进行了埋点统计，由于被点击元素是一串xml字符，用户无法直接统计数据，需要对元素进行注释才能使用，由于元素注释...
【Python数分实战】数据分析可视化Shein 男装商品数据集
2024-04-21 10:58

Data 实验室的博客前言可视化主要使用 plotly 数据处理主要使用 pandas ️ 数据爬取主要使用 requests 本文是我自己在和鲸社区的原创今天这篇文章将给大家介绍【关于Shein 男装商品数据集的探索】案例。 Step 1. 导入模块 import ...
20210727-开源证券-纺织服装行业：敏捷供应链与数字化运营下的SHEIN模式解析.pdf
2021-07-28 07:31

20210727-开源证券-纺织服装行业：敏捷供应链与数字化运营下的SHEIN模式解析.pdf
纺织服装：敏捷供应链与数字化运营下的SHEIN模式解析（2021）（34页）.pdf
2022-02-18 12:09

纺织服装：敏捷供应链与数字化运营下的SHEIN模式解析（2021）本文对SHEIN模式进行了深入分析，总结出SHEIN快速成长为快时尚跨境电商品牌的四大要素：女装切入跨境电商赛道，品类上深耕女装细分人群并围绕女装消费...
Python爬虫讲解（超详细）
2023-05-26 16:46

叉烧豚骨面的博客（1）Requests：一个Python第三方库，可以处理HTTP请求和响应。（2）BeautifulSoup：一个Python的HTML/XML解析器库，可以快速...学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。
SHEIN.xmind
2022-11-25 01:09

SHEIN.xmind
独角兽企业案例报告-SHEIN：解析隐秘电商巨头SHEIN的成功密码.pdf
2021-09-18 11:26

独角兽企业案例报告-SHEIN：解析隐秘电商巨头SHEIN的成功密码.pdf
【Python数分实战】预测肥胖风险数据
2024-04-21 11:07

Data 实验室的博客 Python机器学习用于预测不同肥胖水平的人群。。
浅谈SHEIN的供应链管理.docx
2023-10-01 20:19

SHEIN 的营销中心在广州，广州服装市场的产业链资源非常丰富，SHEIN 将这些资源整合到一起，与供应商采取多种合作模式，ODM、OEM、OBM、VMI 等。四、“小单快返”模式 SHEIN 的供应链管理还有一项“小单快返”的...
Temu上线170余天，它是如何成为一个与SHEIN平头的企业
2023-02-28 19:11

禾思新创的博客一位曾与TEMU 接触过的商家称，TEMU 前期储备的招商团队一度半数服务于时尚类目，甚至还学着SHEIN组建专门的团队深入服装生产环节，给衣服打板——不过最终被取消。 TEMU 上线第一天，首页还有不少SHEIN的影子，...
批零贸易行业：透过SHEIN看跨境电商系列，享跨境电商与网红流量红利，SHEIN杨帆正劲（27页）.pdf
2022-02-08 16:02

【跨境电商与网红流量红利】 SHEIN，作为全球快时尚跨境电商的领导者，已经建立起一系列的竞争优势，包括低价策略、快速周转、高效的流量营销以及精准的产品定位。这家公司的崛起源自其前身，一个专注于婚纱销售的...
没有解决我的问题, 去提问

悬赏问题

¥50 请教麒麟系统挂载怎么安装
¥15 如何在ns3中实现路径的自由切换
¥20 SpringBoot+Vue3
¥15 IT从业者的调查问卷
¥65 LineageOs-21.0系统编译问题
¥30 关于#c++#的问题，请各位专家解答！
¥15 App的会员连续扣费
¥15 不同数据类型的特征融合应该怎么做
¥15 用proteus软件设计一个基于8086微处理器的简易温度计
¥15 用联想小新14Pro

码龄粉丝数原力等级 --

想爬取SHEIN的女裙的图片、标题、价格与颜色，但总是报错

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

想爬取SHEIN的女裙的图片、标题、价格与颜色，但总是报错

3条回答 默认 最新

悬赏问题

3条回答默认最新