scrapy + selenium 抓取不到完整的网易云页面

问题

 得到的网易云页面不完整，这是为什么啊？恳请大佬解答

爬虫代码

import scrapy
class wangyiyun_spider(scrapy.Spider):
    name = 'wy'
    def start_requests(self):
        urls=['https://music.163.com/']
        for url in urls:
            yield scrapy.Request(url=url,callback=self.parse)
    def parse(self,response):
        with open('wz.html','wb') as f:
            f.write(response.body)

MiddleWares代码

from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
import time
class SeleniumParseMiddleware_req(object):
    def process_request(self,request,spider):
        url = 'https://music.163.com/'
        options= webdriver.ChromeOptions()
        options.add_argument('--log-level=3')
        brower = webdriver.Chrome(options=options)  # 实例化浏览器对象
        brower.maximize_window()  # 窗口最大化
        brower.get(url)           # 打开网页
        brower.execute_script('window.scrollTo(0,document.body.scrollHeight)')  # 下滑
        time.sleep(10)

        data = brower.page_source.encode()  # 二进制网页源码数据
        brower.close()
        brower.quit()
        response = HtmlResponse(url=url, body=data, request=request, encoding='utf-8')
        return response

class SeleniumParseMiddleware_res(object):
    def process_response(self, request, response, spider):
         return response

setting中 Middlewares已经打开

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2020-08-11 10:38
关注
https://blog.csdn.net/lovemenghaibin/article/details/83111374

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫实战：使用Scrapy+Selenium高效爬取网易公开课全站课程
2025-06-15 08:47

威哥说编程的博客针对JavaScript异步加载的页面，传统爬虫技术难以直接抓取，通过Scrapy的高效框架和Selenium的浏览器自动化能力协同工作，实现动态内容的精准采集。具体步骤包括：安装必要库、构建Scrapy爬虫、配置Selenium中间件、...
基于Scrapy和Selenium的简书全站文章抓取与解析设计源码
2024-10-04 03:11

该项目的开发涉及到了多个领域的知识，包括但不限于网络爬虫技术、网页结构分析、编程语言Python的应用、Selenium与Scrapy框架的集成使用、以及数据存储与管理等。它不仅是一个实用的工具，更是网络爬虫技术应用的一...
基于Python的智能用户画像数据爬取与分析实战：Scrapy+Selenium+反反爬策略
2025-06-17 10:54

Python爬虫项目的博客本文将详细介绍如何使用Python构建一个完整的用户画像数据采集系统，涵盖从基础爬虫到高级反反爬技术的全流程实现。我们将结合Scrapy框架、Selenium自动化、机器学习验证码识别等技术，构建一个能够高效采集用户行为...
Scrapy对比Selenium：哪个最适合您的网络爬虫项目
2025-03-29 09:15

守城小轩的博客 Selenium是一个开源的Web自动化工具，允许用户以编程方式控制Web浏览器。虽然它主要用于测试Web应用程序，但由于其能够与重度JavaScript网站交互，在Web爬虫领域也广受欢迎，这些网站使用传统方法难以爬取。需要注意...
selenium嵌入scrapy动态网页抓取
2026-01-05 18:55

@杨某的博客重点讲解了如何将Selenium集成到Scrapy框架中，通过中间件处理动态网页请求。示例代码展示了获取动态网页源码、使用Selector解析数据、模拟知乎登录、执行JavaScript滚动页面等常见应用场景，为网络爬虫和自动化测试...
python网络爬虫 Scrapy中selenium用法详解
2020-09-18 14:52

Python是一种广泛使用的高级编程语言，以其清晰的语法和强大的编程能力而受到开发者的青睐。在IT领域，Python尤其在数据分析、机器学习、网络开发、自动化测试和网络爬虫开发方面发挥着重要作用。网络爬虫是一种自动...
利用 Python 构建高性能网络爬虫：Scrapy、Selenium 与异步请求
2025-07-11 08:38

程序员威哥的博客本文介绍了利用Python构建高性能网络爬虫的三种主要技术：Scrapy框架、Selenium自动化工具和异步请求(aiohttp)。Scrapy适合大规模数据抓取，提供高效灵活的爬取机制；Selenium用于抓取需要JavaScript渲染的动态网页...
python+selenium动态实战：抓取京东商城信息
2020-08-22 15:58

在本教程中，我们将深入探讨如何使用Python编程语言与Selenium库进行动态网页抓取，以获取京东商城的商品信息。Selenium是一个强大的自动化测试工具，同时也常被用于模拟真实用户行为，处理JavaScript渲染的动态内容...
基于Selenium与PhantomJS驱动动态渲染页面结合Scrapy框架高效抓取QQ音乐流行指数排行榜Top20歌曲数据并输出为JSON格式的项目_该项目专注于通过混合爬虫技术.zip
2026-01-15 16:22

Scrapy利用了Python编程语言的简洁性和可读性，能够让开发者编写出易于维护和扩展的爬虫程序。Scrapy不仅拥有强大的选择器来解析HTML和XML文档，还能高效地处理并发请求和响应，从而提高了爬虫的整体性能。本项目...
Python是一种高级、通用、解释型的编程语言
2024-04-16 21:25

拥有大量的第三方库，如Numpy和Pandas用于科学计算，Matplotlib和Seaborn用于数据可视化，Django和Flask为Web开发提供框架，TensorFlow和PyTorch支持深度学习，以及Selenium和Scrapy用于网页抓取等。这些库和框架的...
没有解决我的问题, 去提问

scrapy + selenium 抓取不到完整的网易云页面

1条回答 默认 最新

1条回答默认最新