Python selenium的爬虫无法完整爬取整个页面的内容

问题：
1 爬取的内容不完整，在爬取了大部分内容后就又开始爬取另一个页面。
2 页面会自己变成一个VIP充的无关页面，导致报错。这种情况是被反爬了么？
3 有些页面只有VIP才能观看，这样的话还能用selenium爬取么？
代码如下：

from selenium import webdriver
import time
global pages#全局变量。如果可以的话希望能换个地方呆着。全局变量的写法，先后顺序
pages=set()#一万个页面的储存体
driver = webdriver.Chrome()
driver.get('https://snail.baidu.com/ndyanbao/browse/index#/search')
#print(driver.current_url)#打印当前的url
time.sleep(5)
i=0
while i < 1000:
  i=i+1
  elements = driver.find_elements_by_class_name('report-title')  # 第一层的标题的按钮
  for element in elements:
    element.click()#可以先把链接存起来，也可以直接开始：它本身的文本内容以及页面内的其他文章链接
    hand = driver.window_handles  # 获取当前的所有句柄
    driver.switch_to.window(hand[-1])   # 转换窗口至最高的句柄
    dlans = driver.find_elements_by_xpath('//*[@id="view-app"]/div[3]/div/div[3]')#登录观看
    if dlans :#登录按钮存在时
        dlan = dlans[0]
        driver.execute_script("arguments[0].click();", dlan)
        time.sleep(5)
        yhm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')  # 用户名登录
        yhmd = yhm[0]
        yhmd.click()
        yh = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')  # 用户名
        yh = yh[0]
        yh.send_keys('用户名')
        mm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')  # 密码
        mm = mm[0]
        mm.send_keys('密码')
        dl = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')  # 点击登录按钮
        dl = dl[0]
        dl.click()
        time.sleep(10)
        xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
        xt2 = [str(i.text) for i in xt]
        print(''.join(xt2))  # 后期改为TXT。join列表方法
        wz = driver.current_url  # 当前的url
        pages.add(wz)  # 将第一层的10000个页面全部存进pages中,方便后面判断
        time.sleep(5)
        # driver.quit()#如何关闭子页面呢？
        hand = driver.window_handles  # 获取当前的所有句柄
        driver.switch_to.window(hand[0])  # 转换原始页面
    else:#登录按钮不存在
        time.sleep(10)
        print('吾皇万岁万岁万万岁')
        xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
        xt2 = [str(i.text) for i in xt]
        print(''.join(xt2))  # 后期改为TXT。join列表方法
        wz = driver.current_url  # 当前的url
        pages.add(wz)  # 将第一层的10000个页面全部存进pages中,方便后面判断
        time.sleep(5)
        hand = driver.window_handles  # 获取当前的所有句柄
        driver.switch_to.window(hand[0])  # 转换原始页面
  nps= driver.find_elements_by_class_name('el-icon.el-icon-arrow-right')  #下一页按钮
  for np in nps:
    np.click()
else:
    for page in pages:#第一层以及后边几层的网址
      driver.get('page')
      qts=driver.find_elements_by_class_name('doc-title')#当前页面中含有的的其他文本的按钮.准备进入第二层
      for qt in qts:#当前页面内可操作的文本标题
        qt.click()#之后要在其他页面上重复操作。进入第二层
        hand = driver.window_handles  # 获取当前的所有句柄
        driver.switch_to.window(hand[1])  # 转换窗口至最高的句柄
        ht = driver.current_url#获得他们的URL
        time.sleep(30)
        LD = driver.find_elements_by_class_name('btn login-btn')  # 登录观看
        if LD :
            ld = LD[0]
            ld.click()
            yhm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__footerULoginBtn')  # 用户名登录
            yhmd = yhm[0]
            yhmd.click()
            yh = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__userName')  # 用户名
            yh = yh[0]
            yh.send_keys('用户名')
            mm = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__password')  # 密码
            mm = mm[0]
            mm.send_keys('密码')
            dl = driver.find_elements_by_css_selector('#TANGRAM__PSP_11__submit')  # 点击登录按钮
            dl = dl[0]
            dl.click()
            time.sleep(10)
            xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
            xt2 = [str(i.text) for i in xt]
            print(''.join(xt2))  # 后期改为TXT。join列表方法
            wz = driver.current_url  # 当前的url
            time.sleep(10)
            pages.add(wz)  # 将第一层的10000个页面全部存进pages中
            time.sleep(5)
            # driver.quit()
            if ht not in pages:
                pages.add(ht)
            # driver.quit()
        else:
            time.sleep(10)
            xt = driver.find_elements_by_class_name('reader-word-layer')  # 爬取文章内容#加入百度文库4的代码
            xt2 = [str(i.text) for i in xt]
            print(''.join(xt2))  # 后期改为TXT。join列表方法
            wz = driver.current_url  # 当前的url
            time.sleep(10)
            pages.add(wz)  # 将第一层的10000个页面全部存进pages中
            time.sleep(5)
            # driver.quit()
            if ht not in pages:
                pages.add(ht)
            # driver.quit()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
江天暮雪丨 2021-10-26 17:39
关注
爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现
这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄
VIP内容肯定是需要你的账号是VIP才能看得到的，与selenium无关。你想不花钱享受付费服务，这种破解似乎是违法的，谨慎。。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
Python selenium 爬虫被检测怎么办？ python 有问必答
2022-03-12 22:42

回答 2 已采纳是不是安装的selenium模块版本不对webdriver.Chrome()返回的对象没有execute_cdp_cmd方法重新安装selenium模块新版本看看
python selenium爬虫遇到弹窗报错 chrome python selenium
2023-03-15 21:51

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7633385你也可以参考下这篇文章：使用sel
python-selenium爬虫解决python作业爬取中国大学排名榜单
2023-01-07 11:01

python-selenium爬虫解决python作业爬取中国大学排名榜单 result = open('data.xls', 'w', encoding='utf-8') result.write('大学名称\t英文名\t大学级别\t所在省市\t大学类型\t总分\t办学层次\n') for m in ...
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫利用selenium爬取淘宝和京东商品信息
2024-01-19 15:52

python爬虫利用selenium爬取淘宝和京东商品信息。实现了无头浏览器进行爬取，即不需要启动自己的浏览器即可完成爬取信息的功能，而且避免了网站的反爬机制。python爬虫利用selenium爬取淘宝和京东商品信息。实现了...
python selenium 多开浏览器能够同步做一样的动作吗 python selenium 爬虫
2022-05-06 09:33

回答 1 已采纳可以做到，使用thread里面的event函设置等待事件，比如说在一个线程（一个游览器）完成点击事件后设置一个等待（event().wait()），只有在全部完成后才能进行下一步，这儿要在主线程里面设
python爬虫使用selenium切换窗口问题 python selenium 有问必答爬虫
2022-03-18 12:30

回答 2 已采纳 driver.swith_to.window(driver.window_handles[1]),函数名写错了，不是swith是switch，少写了个c，改成：driver.switch_to.win
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
基于Python的企查查爬虫，爬取完整的公司数据+源代码+文档说明
2023-12-01 22:11

基于Python的企查查爬虫，爬取完整的公司数据 -------- 该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ <项目介绍> 1、该资源内项目代码都经过...
python selenium 爬虫教程_python selenium爬虫
2024-04-26 03:26

m0_57472099的博客以下是一个案例分析，展示如何使用Python和Selenium进行安全的爬取。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面...
selenium+python爬虫爬取新闻评论
2020-11-03 16:31

selenium+python爬虫实现爬取新闻的标题，来源，以及评论等，并将爬取的内容导入txt格式文件。
基于Python+selenium实现的爬取京东评论的爬虫系统，无需登录
2024-10-02 10:27

【作品名称】：基于Python+selenium实现的爬取京东评论的爬虫系统，无需登录【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月24日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

Python selenium的爬虫无法完整爬取整个页面的内容

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新