python爬虫，使用selenium爬取某宝数据，爬虫代码能正常运行，但是控制台只打印了一个商品的信息

1、
环境：pycharm
浏览器：chrome
描述：使用selenium爬取某宝数据，爬虫代码能正常运行（可以对元素进行定位，可以下拉滑动条、可以通过修改url去到下一页），但是控制台只打印了一个商品的信息，其余爬取的信息没有被打印出来

2、代码如下：

"""
爬取淘宝商品步骤：
1、打开谷歌浏览器，访问淘宝网站：找到淘宝的 url
2、定位搜索框和搜索按钮（F12，使用元素选择器进行定位，复制 XPath），要完成的动作→输入要搜索的商品，然后点击搜索按钮
3、在登陆界面停留 10 秒，手机扫码登陆（需手动），高级一点的方法可以自送输入账号密码登陆
4、进入搜索结果页面，模仿人浏览商品时的动作→下拉滑动条到页面的最后，拉5次，拉的过程有暂停
"""
from selenium import webdriver
# 需要一款浏览器，访问淘宝网址
import time
import re
# 找到 输入框 找到 按钮
# 元素（输入框、按钮等） 定位


def search_product():
    driver.find_element_by_xpath('//*[@id="q"]').send_keys(kw)
    driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()
    # # 强行阻止程序运行 10s的时间
    time.sleep(5)
    # 获取搜索结果页面的总页码
    token = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]').text
    token = int(re.compile('(\d+)').search(token).group(1))
    return token
# 元素定位 他没有前提吗？你的网速比较慢，如果元素没有加载完毕，那么你能够去定位没有加载的数据吗？没有加载出来
# 也就是说，这个加载的过程 是因为我拉动了下滑条！
# 步骤：登录 拉动下滑条 采集数据 下一页 拉动下滑条 再采集数据，按这个循环！


def drop_down():
    # 一次拉一部分，拉的时候有暂停 range 得出 1 3 5 7 9 五个数
    for x in range(1, 11, 2):
        time.sleep(0.5)
        # j 代表滑动条的五个位置：1/10、3/10、5/10、7/10、9/10
        j = x/10
        # 下面的 js 是 JavaScript 的语法，可以当作万能公式解决大部分网站问题
        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)


def get_product():
    # 首先获取所有的 div ，然后遍历所有的 div ，得到一个div 再去一个 div 里面寻找需要的数据
    # // 代表任意位置（任意一个位置的属性属于 class="items" 的 div）
    # //div[@]/div[@] 代表要获取的 div 的路径
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq item-ad  "]')
    for div in divs:
        # . 代表当前目录, .// 当前目录下的任意 div标签 下的 a标签 下的 img标签 下的 src
        info = div.find_element_by_xpath('.//div[@class="row row-2 title"]').text
        price = div.find_element_by_xpath('.//div[@class="price g_price '
                                          'g_price-highlight"]/strong').text + '元'
        deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        image = div.find_element_by_xpath('.//div[@class="pic"]/a/img').get_attribute('src')
        # name = div.find_element_by_xpath('.//div[@class="shop"/a/span[1]').text
        address = div.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text
        # 定义一个字典
        product = {'标题': info, '价格': price, '订单量': deal, '图片': image, '地址': address}
        print(product)


# 淘宝的反爬很严重，所以尽量不要模拟多次点击下一页
# 采用改 url 的方法可以避免反爬：通过分析淘宝页面的 url→https://s.taobao.com/search?q=Python&s=88
# 可以得知下一页就是在 url 后面的值 +44。即第4页的 url 为 https://s.taobao.com/search?q=Python&s=132
def next_page():
    token = search_product()
    drop_down()
    get_product()
    num = 1
    while num != token:
        driver.get('https://s.taobao.com/search?q={}&s={}'.format(kw, 44*num))
        num += 1
        # time.sleep(4) 。这个方法延迟太慢了，改用下面的只能等待方法
        # 隐视等待，智能等待，最高等待时间为10s，如果超过10s，抛出异常
        driver.implicitly_wait(10)
        # 无限循环进入网页，可能造成网页卡顿！导致数据加载不出来，解决方法是加一个延迟，等数据先加载出来再操作
        drop_down()
        get_product()


if __name__ == '__main__':
    kw = input('请输入你想查询的商品：')
    driver = webdriver.Chrome()
    driver.get('https://www.taobao.com/')
    next_page()

# 这个程序可以无限制地爬取内容，淘宝无法检测出来而反爬

3、代码能正常运行，打印信息如下：
图片说明

4、求各位大神帮忙解决一下T-T

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2020-03-28 15:48
关注
https://blog.csdn.net/weixin_42551465/article/details/80817552

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
python爬虫使用selenium切换窗口问题 python selenium 有问必答爬虫
2022-03-18 12:30

回答 2 已采纳 driver.swith_to.window(driver.window_handles[1]),函数名写错了，不是swith是switch，少写了个c，改成：driver.switch_to.win
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
python爬虫1688一件代发电商工具（二）-抓取商品详情页价格库存运费信息（selenium）
2023-02-09 14:49

根据商品id指定需要抓取的商品范围，抓取指定商品详情页价格、库存、运费信息，存入数据库作数据分析和参考使用步骤： 1.搭建python环境，配置好环境变量 2.配置数据库环境，根据本地数据库连接修改alibaba.py中的...
学习python爬虫的selenium时，百度网页无法跳转出来 python selenium 爬虫
2022-09-07 20:57

回答 2 已采纳 http://chromedriver.storage.googleapis.com/index.html下载谷歌浏览器相应的驱动选择下载与chrome浏览器相匹配的chromedriver版本，解压
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
基于python selenium实现B站直播弹幕和礼物信息爬虫源码+项目操作说明.zip
2023-10-12 11:01

基于python selenium实现B站直播弹幕和礼物信息爬虫源码+项目操作说明.zip 实现原理： 1.核心：数据去重直播间网页页面可容纳的弹幕和礼物数据是有限的，且这些数据不断地在更新增加，超过一定量后，将会发生滚动...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
python 爬虫实战六：用 selenium 爬取豆瓣电影
2020-12-20 11:44

晓炜的博客说明这是一个动态网站，需要使用selenium来爬取。 selenium 是一个非常简单方便的库，用来模拟人进行上述操作。但是需要提前安装好这个库，而且需要安装火狐或者Chrome浏览器的geckodriver，具体的细节可以阅读官
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
Python 使用Selenium 爬取Linkedin领英数据
2022-01-19 21:00

Metamorphosis_.的博客 Python 使用Selenium 爬取Linkedin领英数据简单的介绍已有资料百度快照爬取第一步第二步功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表...
python 爬虫实战四：用 selenium 爬取知乎某一问题下所有回答
2020-10-31 15:32

晓炜的博客用 selenium 爬取知乎某一问题下所有回答前言模拟登录动态爬取完整代码效果展示前言最近我又重新拾起了爬虫，想实现一下前几次爬虫所没有涉及到的两个点：模拟登录和动态网页爬取，所采用的方法是利用 selenium 这...
没有解决我的问题, 去提问

悬赏问题

¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序

python爬虫，使用selenium爬取某宝数据，爬虫代码能正常运行，但是控制台只打印了一个商品的信息

1条回答 默认 最新

悬赏问题

1条回答默认最新