candy621 2021-03-07 11:27 采纳率: 100%
浏览 45
已采纳

初学python爬虫,爬取不到网页的阅读数是怎么回事?求大神解答

import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/gncj/170427.html']

    def parse(self, response):
        re_selector = response.xpath("/html/body/div[3]/div[1]/div[3]/div[1]/h1")
        title = response.xpath('//div[@class="article-head"]/h1/text()').extract()
        create_time = response.xpath("//div[@class='article-detail bgc-fff']/div[1]/div/div/span/text()").extract()[0]
        read_num =  response.xpath("/html/body/div[3]/div[1]/div[3]/div[1]/div/div/span[2]/text()").extract()

read_num无法提取数据

 

 

我通过xpath只能提取到")",这是为啥?请教!!!!

  • 写回答

3条回答 默认 最新

  • coagenth 2021-03-07 13:52
    关注

    数据是js动态渲染的,scrapy需结合splash使用,用selenium速度虽慢点,但是对js加载数据的获取准确性较高。

    driver.implicitly_wait(5)

    #page=driver.page_source

    read_num = driver.find_element_by_xpath(

        "/html/body/div[3]/div[1]/div[3]/div[1]/div/div/span[2]").text

    print(read_num)

    ##output:

    阅读(18)

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵