(关键词-index)爬取淘宝商品数据这段代码有什么问题吗，怎样解决


from DrissionPage import ChromiumPage#自动化模块
#导入正则表达式
import re
#导入json模块
import json
#导入csv
import csv
#到入时间模块
import time


f = open('data.csv', mode='w', encoding='utf-8',newline='')
#写入字典
csv_writer = csv.DictWriter(f,fieldnames= [
    '标题',
    '价格',
    '地区',
    '销量',
])
#写入表头
csv_writer.writeheader()
driver = ChromiumPage()#打开浏览器
driver.get('https://s.taobao.com/search?q=')#访问网站
driver.ele('css:#q').input('办公')#商品名/类
driver.ele('css:.btn-search').click()#点击搜索drive
for page in range(100):

 time.sleep(2)#等待两秒
 driver.scroll.to_bottom()#网页到底
 resp = driver.listen.wait(2)#等待数据包加载
 text = resp.response.body#获取响应数据'
#text = 'mtopjsonp1'
# 解析数据，提取内容
 info = re.findall('mtopjsonp\d+\((.*)',text[0].replace(')',''))
#转换数据类型
 json_dara = json.loads(info)
#根据键值对取值，提取商品信息所在列表
 items = json_dara['data']['itemsArray']
#for循环，提取列表元素
 for index in items:
    #提取数据保存到字典中
     dit = {
        '名称': index['title'],
        '价格': index['priceWap'],
        '地区': index['price'],
        '销量': index['realSales'].replace('人付款','')
    }
    #写入数据
     csv_writer.writerow(dit)
  #点击下一页

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/95ecf37ae9d1425a909fcae1b53e8686.png "#left")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-04-11 11:24

关注

引自免费微信小程序：皆我百晓生

在您提供的代码中，存在一些错误和潜在的问题。以下是针对这些问题的详细解答及修改后的代码。

问题1：driver.scroll.to_bottom() 和 driver.listen.wait(2) 这两个方法在实际代码中可能不存在。DrissionPage 应该是基于 Selenium 的一个封装库，但这里的方法调用不符合 Selenium 的标准 API。为了实现滚动到页面底部和等待数据加载，我们可以使用 Selenium 的标准方法。

修复方案：

from selenium.webdriver.common.action_chains import ActionChains

替换：

time.sleep(2) # 等待两秒
driver.scroll.to_bottom() # 网页到底
driver.listen.wait(2) # 等待数据包加载

为：

time.sleep(2) # 等待两秒
actions = ActionChains(driver)
actions.send_keys(Keys.PAGE_DOWN).perform() # 滚动到页面底部
time.sleep(2) # 增加额外的延迟，确保数据加载完成

问题2：在解析 JSON 数据时，使用了正则表达式 re.findall 来匹配字符串，但是文本开始时可能没有 'mtopjsonp'，这会导致找不到匹配项。另外，text[0] 只会获取第一个字符，应该改为 text。

修复方案：

info = re.findall(r'mtopjsonp\d+\((.*?)\)', text.replace(')', '')) # 更改正则表达式并处理整个文本

问题3：在提取数据时，键值 'price' 在 JSON 中可能不存在，应更改为 'rawPrice'。

修复方案：

'district': index['rawPrice'] # 替换为 rawPrice 键

问题4：由于网络延迟或服务器响应问题，一次性遍历100页可能会导致部分页面的数据抓取失败。可以尝试使用 try-except 结构处理可能出现的异常。

修复方案：

for page in range(100):
    try:
        ...
    except Exception as e:
        print(f"在第 {page} 页发生错误: {e}")

下面是修复上述问题后完整的代码：

from selenium.webdriver.common.action_chains import ActionChains
from DrissionPage import ChromiumPage
import re
import json
import csv
import time

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '价格',
    '地区',
    '销量',
])
csv_writer.writeheader()

driver = ChromiumPage()  # 打开浏览器
driver.get('https://s.taobao.com/search?q=')  # 访问网站
driver.ele('css:#q').input('办公')  # 商品名/类
driver.ele('css:.btn-search').click()  # 点击搜索

for page in range(100):
    try:
        time.sleep(2)  # 等待两秒
        actions = ActionChains(driver)
        actions.send_keys(Keys.PAGE_DOWN).perform()  # 滚动到页面底部
        time.sleep(2)  # 增加额外的延迟，确保数据加载完成

        # 获取响应数据
        resp = driver.execute_script("return document.documentElement.outerHTML")
        # 解析数据，提取内容
        info = re.findall(r'mtopjsonp\d+\((.*?)\)', resp.replace(')', ''))
        # 转换数据类型
        json_data = json.loads(info[0])

        # 根据键值对取值，提取商品信息所在列表
        items = json_data['data']['itemsArray']

        for index in items:
            # 提取数据保存到字典中
            dit = {
                '名称': index['title'],
                '价格': index['priceWap'],
                '地区': index['rawPrice'],  # 使用 rawPrice 键
                '销量': index['realSales'].replace('人付款', '')
            }
            # 写入数据
            csv_writer.writerow(dit)

    except Exception as e:
        print(f"在第 {page} 页发生错误: {e}")

driver.quit()  # 关闭浏览器
f.close()  # 关闭文件

注意：这个代码示例假设 ChromiumPage 是一个有效的 Selenium 驱动封装，并且已经正确安装了相关依赖。如果没有安装，你需要先安装 DrissionPage（如果是基于 Selenium 的工具包）以及 Selenium。同时，因为淘宝的反爬虫策略，这种方法可能不总是有效，你可能需要添加更多的异常处理和随机延时等措施来提高成功率。

编辑记录

报告相同问题？

关注问题

selenium爬取淘宝翻页不成功，有大佬帮下忙吗 python
2021-04-16 18:12

回答 4 已采纳 data中不是循环了两次吗？所以最多爬取两页的数据。有一个问题， browser.get(f"https://s.taobao.com/search?q={value}&s={b}") b +=
批量爬取数据中报错list index out of range（索引本身没问题）怎么办 pycharm python 爬虫
2022-05-25 19:20

回答 2 已采纳你是这句报的错， title = re.findall('<h1 id="video-title" title="(.*?)" class="video-title">', resp.te
有人能解释一下这段代码吗 java
2023-01-03 17:49

回答 4 已采纳这段代码定义了一个名为 getOneExam 的方法，该方法用于从给定的列表中随机获取一个试题。代码的执行过程如下：首先，使用 Random 类的构造函数创建一个 random 对象，该对象用于生
Python-selenium爬取最新版可用某网职位爬取数据
2022-12-12 12:01

一键难忘的博客文章分为两部分，首先介绍了Selenium的详解，然后讲解了使用Selenium进行网页爬取的实例。Selenium详解：Selenium WebDriver是核心组件，提供API以编程方式控制浏览器，支持多种浏览器驱动程序。Selenium Grid允许在...
把爬取的数据放进mysql时提示“string index out of range ” mysql python 数据挖掘
2023-03-27 23:57

回答 2 已采纳你的写法有些奇怪,再说用+串联效率是非常低的。 company = ["腾讯","百度"] page=3 for i in company: for j in range(1,page+1)
没搞懂这段js代码什么意思，求解 javascript 前端开发语言
2022-04-20 09:49

回答 1 已采纳看起来像是使用Jquery将表单下的输入框的name与value转成json字符串的方法。
关于#机器学习#的问题，如何解决？(语言-python) python 开发语言机器学习
2023-03-12 14:43

回答 2 已采纳这个错误提示表明，在计算距离的时候使用了字符串类型的数据，而距离计算一般是针对数值型数据的。你需要检查你的数据，看看是否有些特征是字符串类型的，如果有，你需要进行相应的处理，将其转换为数值类型，比如使
Python基于pandas爬取网页表格数据
2020-12-17 13:56

在Python的编程环境中，pandas库是一个非常强大的数据分析工具，同时也提供了一种便捷的方式来爬取网页中的表格数据。本文将详细介绍如何使用pandas的`read_html`函数来抓取网页表格，以及一些相关的参数和使用技巧...
python爬取数据存入excel中的问题 python 数据分析爬虫
2021-08-18 15:01

回答 2 已采纳不清楚你爬取的网页结构是什么？看你代码及执行结果猜测：第一页中只有一个《ul》,你取了它之下所有的《a》和《span》的内容，然后用“，”将它们连接成一个字符串，结果就是一个《ul》下的内容存为
下面这段代码有bug，我调试不出来 python 有问必答
2022-10-26 14:01

回答 2 已采纳发代码时用工具栏的</>按钮格式化下，要不python没缩进没法看这个代码。。 #from urllib import request from bs4 import BeautifulS
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
Python爬取电影数据-进行可视化分析利用request爬取电影数据保存在csv文本，.zip
2024-06-22 09:30

Python作为一门强大的编程语言，其丰富的库资源使得爬取和处理数据变得非常便捷。在这里，我们重点关注`requests`库，它是一个用于发送HTTP请求的Python库，非常适合用来抓取网页内容。首先，让我们详细了解`...
json 爬取数据数据后，如何存为excel json python
2022-01-28 21:01

回答 1 已采纳 import json import pandas as pd import time import requests LT_ITEM=[] headers = { 'user-Agent
python爬虫实战---爬取大众点评评论
2020-08-27 20:25

Python新世界的博客 python爬虫实战—爬取大众点评评论（加密字体） 1.首先打开一个店铺找到评论很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不...
py代码-处理csv文件重复数据
2021-07-14 20:48

这段代码首先导入`pandas`库，并使用`read_csv()`函数读取名为`input.csv`的CSV文件，将其加载到一个DataFrame对象`df`中。接着，`drop_duplicates()`函数被用来移除任何完全相同的行。默认情况下，它会基于所有列...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日

悬赏问题

¥15 angular项目错误
¥20 需要帮我远程操控一下，运行一下我的那个代码，我觉得我无能为力了
¥20 有偿：在ubuntu上安装arduino以及其常用库文件。
¥15 请问用arcgis处理一些数据和图形，通常里面有一个根据点划泰森多边形的命令，直接划的弊端是只能执行一个完整的边界，但是我们有时候会用到需要在有很多边界内利用点来执行划泰森多边形的命令
¥30 在wave2foam中执行setWaveField时遇到了如下的浮点异常问题，请问该如何解决呢？
¥750 关于一道数论方面的问题，求解答！(关键词-数学方法)
¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件

(关键词-index)爬取淘宝商品数据这段代码有什么问题吗，怎样解决

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新