sinat_38677939 2018-12-07 15:52 采纳率: 0%
浏览 1202

刚学习用scrapy + selenium爬动态网页,但是不知道为什么就是不行,下面是代码,求大神指点!!!

MySpider里面是这样的:

class MySpider(scrapy.Spider):
    name = 'BAIScrapy'

    def start_requests(self):
        print('开始')
        url = 'https://www.bilibili.com/'
        request = scrapy.Request(url=url, callback=self.parse, dont_filter=True)
        request.meta['PhantomJS'] = True
        yield request

    def parse(self, response):
        print('Emmm...')
        item = BilibiliAnimeInfoScrapyItem()
        item['links'] = response.css('a::attr("href")').re("www.bilibili.com/bangumi/play/")

middlewares里面是这样的:

    def process_reqeust(self, request, spider):
        print('进入selenium')
        driver = webdriver.PhantomJS()
        driver.get(request.url)
        element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID,'bili_bangumi')))
        driver.quit()
        yield HtmlResponse(url=request.url, encoding='utf-8', body=driver.page_source, request=request)

settings里面是这样的:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'


ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
    'bilibili_anime_info_scrapy.middlewares.BilibiliAnimeInfoScrapyDownloaderMiddleware': 543,
}
  • 写回答

1条回答 默认 最新

  • devmiao 2018-12-07 15:56
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 虚拟机打包apk出现错误
  • ¥30 最小化遗憾贪心算法上界
  • ¥15 用visual studi code完成html页面
  • ¥15 聚类分析或者python进行数据分析
  • ¥15 逻辑谓词和消解原理的运用
  • ¥15 三菱伺服电机按启动按钮有使能但不动作
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝