初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答

import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/gncj/170427.html']

    def parse(self, response):
        re_selector = response.xpath("/html/body/div[3]/div[1]/div[3]/div[1]/h1")
        title = response.xpath('//div[@class="article-head"]/h1/text()').extract()
        create_time = response.xpath("//div[@class='article-detail bgc-fff']/div[1]/div/div/span/text()").extract()[0]
        read_num =  response.xpath("/html/body/div[3]/div[1]/div[3]/div[1]/div/div/span[2]/text()").extract()

read_num无法提取数据

我通过xpath只能提取到")",这是为啥？请教！！！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-07 13:52
关注
数据是js动态渲染的，scrapy需结合splash使用，用selenium速度虽慢点，但是对js加载数据的获取准确性较高。

driver.implicitly_wait(5)

#page=driver.page_source

read_num = driver.find_element_by_xpath(

"/html/body/div[3]/div[1]/div[3]/div[1]/div/div/span[2]").text

print(read_num)

##output:

阅读(18)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答 python
2021-03-07 11:27

回答 3 已采纳数据是js动态渲染的，scrapy需结合splash使用，用selenium速度虽慢点，但是对js加载数据的获取准确性较高。 driver.implicitly_wait(5) #page=dri
python爬虫初学者，网页手动打开过才显示数据，爬虫访问没打开过的网页，爬不到数据怎么办？ python 有问必答爬虫
2022-01-21 09:58

回答 2 已采纳将请求头的参数都设置进去，然后在独立设置cookie参数
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫以及数据可视化分析
2020-12-25 17:43

反卷三明治的博客 Python爬虫以及数据可视化分析之B站动漫排行榜信息爬取分析 ...简单几步，通过Python对B站...PS: 作为Python爬虫初学者，如有不正确的地方，望各路大神不吝赐教[抱拳] 本项目将会对B站番剧排行的数据进行网页信息爬取以及
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
python爬取网页信息（主要为期刊影响因子、官网等），已有ISSN进行检索，但爬取过程找不到class该怎么办？ python 爬虫
2023-03-28 10:02

回答 5 已采纳你需要现在网页html中看下那些指标因子的html结构是什么，才知道怎么提取。你的数据是在一个表格中，你可以先定位到表格的html，然后通过前后html标签来定位到你要解析的数据。代码如下，已成功提取
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python爬虫爬取漫画（仅供学习）
2020-02-04 22:54

coder侠的博客项目名： crawl_chuanwu 爬取链接：...3. 每个章节都是一个link，我们需要获得这些链接，直接右击检查网页源代码，我们能找到每个章节的url,很幸运，这个不是动态网页（ajax:异步 Jav...
python爬虫初学，运行不报错但是没有结果？ python 有问必答
2021-04-01 16:51

回答 4 已采纳代码问题：1.request少写了s。 2. fillUnivList(ulist,html)函数没有return。 3.printUnivList(ulist,num)缺少异常处理。 4
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
python爬虫登录有验证码_大神教你用Python爬虫模拟登录带验证码网站
2020-11-29 02:44

weixin_39830588的博客 python提供了强大的url库，想做到这个并不难。这里以登录学校教务系统为例，做一个简单的例子。首先得明白cookie的作用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们...
初学python爬虫，好像是selenium的错，len(），希望大神们提点一下 javascript python selenium 爬虫
2017-11-30 00:23

回答 2 已采纳想返回数组要用复数 find_element_by_tag_name 要改成 find_elements_by_tag_name 其他还有
Python爬取生态环境水污染排放标准.mp4
2020-08-28 16:49

一个初学者的爬虫案例。用到了网页内容获取和解析方法。步骤很详细。适合初学者练习或修改。里面有不少可以简化的地方，比如使用函数、获取完整链接等。希望大神可以帮忙完善。
Python爬虫——selenium爬取网易云评论并做词云
2021-09-01 19:38

白巧克力LIN的博客评论区集结各路大神，今天我们来爬取网易云音乐评论并做个词云图，看看大家都评论了啥。目录爬取分析正式爬取 selenium 爬取网易云评论获取子Frame内容获取评论保存评论结果展示制作词云结果...
没有解决我的问题, 去提问

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答

3条回答 默认 最新

悬赏问题

3条回答默认最新