selenium爬取京东商品信息加载失败

selenium爬取京东商品信息加载失败

如图selenium爬取京东网站商品页面出现加载失败，无法加载当前页面剩余数据

主要代码如下

def get_page(driver):
    content = []
    for ele1 in driver.find_elements(By.CLASS_NAME,'gl-item'):
        pr = ele1.find_element(By.CLASS_NAME,'p-price').text
        na = ele1.find_element(By.CLASS_NAME,'p-name').text
        s = ele1.find_element(By.CLASS_NAME,'p-shop').text
        gid = ele1.get_attribute('data-sku')
        icon = ele1.find_element(By.CLASS_NAME,'p-icons').text
        content.append([gid,na,pr,s,icon])
    df = pd.DataFrame(data=content,columns=['id','name','price','shop','icon'])
    return df

def next(driver,p):
    page = driver.find_element(By.CSS_SELECTOR,'#J_bottomPage > span.p-skip > input')
    page.send_keys(Keys.BACK_SPACE)
    page.send_keys(Keys.BACK_SPACE)
    page.send_keys(str(p))
    time.sleep(5)
    page.send_keys(Keys.ENTER)

for i in range(1,101):
    df1 = pd.concat([df1,get_page(driver)])
    next(driver,i+1)

经过以下尝试：

增加代码等待时间
模拟页面拖动（键盘空格键向下）

driver.find_element(By.TAG_NAME,'body').send_keys(Keys.SPACE)

点击“重试”按钮

def pass_fresh(driver):
    t = driver.find_element(By.LINK_TEXT,'重试')
    ac = ActionChains(t)
    time.sleep(0.5)
    t.click()
    time.sleep(1)

刷新当前页面

driver.find_element(By.TAG_NAME,'body').send_keys(Keys.F5)

多次尝试点击“重试”按钮、刷新页面仍无法加载（偶尔可以加载成功），求个解决方法。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-09 20:45
关注
引自免费微信小程序：皆我百晓生

针对您遇到的Selenium爬取京东商品信息加载失败的问题，根据您的代码和尝试，可以推测是由于动态加载内容或反爬机制导致数据未能完全加载。以下是一些解决方案和建议：

等待页面加载完成：使用WebDriverWait配合expected_conditions来确保元素加载完成后再进行抓取，而不是简单地增加固定等待时间。例如：

from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def get_page(driver): wait = WebDriverWait(driver, 20) content = [] for ele1 in wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, 'gl-item'))): pr = ele1.find_element(By.CLASS_NAME,'p-price').text na = ele1.find_element(By.CLASS_NAME,'p-name').text s = ele1.find_element(By.CLASS_NAME,'p-shop').text gid = ele1.get_attribute('data-sku') icon = ele1.find_element(By.CLASS_NAME,'p-icons').text content.append([gid,na,pr,s,icon]) df = pd.DataFrame(data=content,columns=['id','name','price','shop','icon']) return df

处理无限滚动加载：如果页面采用的是滚动加载更多商品的方式，您可以模拟滚动到底部以触发更多数据加载。

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 可能需要根据实际情况调整等待时间

处理Ajax请求：检查页面是否通过Ajax加载额外数据，如果是，则需要抓取相应的Ajax请求获取数据，或者使用Selenium执行JavaScript触发Ajax加载并等待其完成。

使用浏览器无头模式：尝试将浏览器设置为无头模式（Headless Mode），有时候网站会针对非正常用户行为做出限制，无头模式下可能更不容易被识别为爬虫。

options = webdriver.ChromeOptions() options.add_argument('--headless') driver = webdriver.Chrome(options=options)

处理反爬策略：部分网站会检测请求中的User-Agent、Cookies等信息来判断是否为爬虫，您可以尝试定期更换User-Agent，或者模拟登录用户态以获取更多数据。

分析网络请求：使用如Chrome开发者工具查看页面加载过程中的网络请求，找到实际加载商品数据的接口，直接对该接口发起请求，绕过前端渲染问题。

尝试其他抓取技术：如果以上方法均无法解决问题，考虑结合如Selenium与requests库搭配使用，或者使用如Scrapy框架，模拟登录后通过API接口等方式获取数据。

请逐一排查上述方案，并依据京东网页的实际加载逻辑进行相应调整。同时，请遵守相关法律法规以及网站的Robots协议，合理合法地进行数据抓取。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
selenium爬虫爬取网页信息时出现用户登陆怎么解决？ python 有问必答
2022-08-25 16:21

回答 5 已采纳 emmm，你可以先打开浏览器进行登录，再让selenium接管浏览器：https://blog.csdn.net/qq254271304/article/details/103493969或者你再程序
selenium爬取京东商品信息.py.zip
2024-04-08 07:15

【标题】"selenium爬取京东商品信息.py.zip" 提供了一个使用Python的Selenium库来抓取京东网站商品信息的实例。Selenium是一个强大的Web自动化测试工具，它允许我们模拟真实用户对网页的交互，这在网页爬虫中特别...
selenium爬取房源网站 python selenium 有问必答
2022-05-10 21:17

回答 3 已采纳请提供报错信息，从报错行查找原因。
selenium爬取淘宝翻页不成功，有大佬帮下忙吗 python
2021-04-16 18:12

回答 4 已采纳 data中不是循环了两次吗？所以最多爬取两页的数据。有一个问题， browser.get(f"https://s.taobao.com/search?q={value}&s={b}") b +=
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
python用selenium爬取京东商品
2019-08-16 20:35

嗨学编程的博客这篇文章，我们将通过 selenium 模拟用户使用浏览器的行为，爬取京东商品信息，还是先放上最终的效果图： 1、网页分析（1）初步分析原本博主打算写一个能够爬取所有商品信息的爬虫，可是在分析过程中发现，不同...
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
selenium爬取网站时,没有出现“下载”链接 http selenium
2021-09-07 23:19

回答 2 已采纳怀疑是原网页检查了referer试试模拟从网站主页进入,点击搜索的过程,我直接访问你贴出的具体网页也没有对应的下载选项,可能是原网站对访问方式有所检查有帮助望采纳
用selenium爬取淘宝多页数据时，只是重复打印一页 python
2021-04-06 22:14

回答 5 已采纳如果没看错的话，您在data函数中做了3次循环，是想爬前三页的数据吗？如果是的话，问题就出在soup上，您的soup是第一页的内容，不管循环多少次，都是在对第一页进行操作
python+selenium爬取京东数据
2020-02-26 11:13

JerryLiu1998的博客 #环境&工具 python3.7 selenium Google Chrome
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
Java爬虫，使用WebMagis+selenium爬取某东商品信息.zip
2024-03-29 15:01

【Java爬虫与WebMagic+Selenium爬取京东商品信息】 Java爬虫技术是软件开发中的一个重要组成部分，尤其在数据挖掘、市场分析等领域有着广泛应用。WebMagic是一个强大的Java爬虫框架，它提供了简单易用的API，使得...
Python网络爬虫数据采集实战：Selenium库爬取京东商品
2020-03-14 15:28

大数据之眸的博客通过前文爬虫理论结合实战的部分我们对爬虫有了初步的了解，首先通过requests模拟浏览器进行请求，接着通过正则表达式或者解析库对网页进行解析，还知道了动态网页Ajax的爬取方法，但总是担心模拟不够会被反爬...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月9日

悬赏问题

¥15 软件供应链安全是跟可靠性有关还是跟安全性有关？
¥15 电脑蓝屏logfilessrtsrttrail问题
¥20 关于wordpress建站遇到的问题！(语言-php)（相关搜索：云服务器）
¥15 【求职】怎么找到一个周围人素质都很高不会欺负他人，并且未来月薪能够达到一万以上（技术岗）的工作？希望可以收到写有具体，可靠，已经实践过了的路径的回答？
¥15 Java+vue部署版本反编译
¥100 对反编译和ai熟悉的开发者。
¥15 带序列特征的多输出预测模型
¥15 Python 如何安装 distutils模块
¥15 关于#网络#的问题：网络是从楼上引一根网线下来，接了2台傻瓜交换机，也更换了ip还是不行
¥15 资源泄露软件闪退怎么解决？

selenium爬取京东商品信息加载失败

7条回答 默认 最新

问题事件

悬赏问题

7条回答默认最新