python爬虫怎么获取伪元素(::after、::before)中的文本

python爬虫怎么获取伪元素(::after、::before)中的文本?比如如下代码:

# <div id="alertDiv" role="alert" aria-live="rude" ng-bind-html="errorMessages" class="ng-binding">文本内容</div>
::after

我用的是selenium

1个回答

scrapy符合你的这种需求。scrapy支持xpath和css选择器

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何使用python爬虫获取css伪元素例如:::before?

求助大神,在爬取网站的时候,网站对于部分文字使用伪元素::before进行了替换,导致无法爬取需要的数据。 例如:<span class="略">::before</span> ::before中隐藏了content后的汉字。 请问该如何处理? 十分感谢!

用python抓取爬虫时无法抓取::before与::after之间的内容

在抓取https://mm.taobao.com/search_tstar_model.htm?spm=719.1001036.1998606017.2.4Cf8Nt 的时候发现::before和::after之间的元素抓取不到,通过BeautifulSoup解析出来的对象中寻找不到"li"标签。 ![图片说明](https://img-ask.csdn.net/upload/201610/06/1475723763_404259.png) 请问这是“::before”引起的问题吗?如果是,如何解决?如果不是,可能是什么问题? 期待回复,谢谢!

选择和操作 CSS 伪元素,例如: : before 和: : after using jQuery

<div class="post-text" itemprop="text"> <p>Is there any way to select/manipulate CSS pseudo-elements such as <code>::before</code> and <code>::after</code> (and the old version with one semi-colon) using jQuery?</p> <p>For example, my stylesheet has the following rule:</p> <pre class="lang-css prettyprint-override"><code>.span::after{ content:'foo' } </code></pre> <p>How can I change 'foo' to 'bar' using jQuery?</p> </div> <p>转载于:https://stackoverflow.com/questions/5041494/selecting-and-manipulating-css-pseudo-elements-such-as-before-and-after-usin</p>

python爬虫获取的字符串中换行符怎么去掉

用Python爬虫,获取了一些字符串,可是有 \ n \ t 之类的东西有没有办法去除?

python爬虫获取源码与网页不同

使用requests和bs4库 静态爬取页面[2017年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html "") Soup获得部分源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692129_124729.png) 对应网页源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692155_28545.png) 可见,该tr中第一个&lt;td&gt1&lt;/td&gt;;在Soup中变成了&lt;td&gt;1&lt;td&gt; ,而末尾处也多了一个&lt;/td&gt; 该问题发生在每一个tr中,但爬取[2016年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html "")并没有出现该问题。 代码照抄教程,应该不存在问题

Python 爬虫如何获取onclick(非url链接)之后网页?

Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说 https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS Tripadvisor 网站,crawl的时候我需要点击next 刷新界面 <a data-page-number="2" data-offset="4" href="/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or5" class="nav next rndBtn ui_button primary taLnk" onclick=" ta.trackEventOnPage('STANDARD_PAGINATION', 'next', '2', 0); ">Next</a> 但是这个next 执行之后url从 https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0 变成 https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05 就是 从 xxx#or0 变成 xxx#or5 也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。 所以我就想知道,如何能crawl这个页面,并且继续crawl下一个界面。 非常感谢修改

python爬虫如何只爬取标签内容

![图片说明](https://img-ask.csdn.net/upload/201904/28/1556421806_296447.png) 想爬取 paths标签下的路径 但是路径被设置为了标签 cc = json_str['paths'] 进行爬取爬取到的是整个paths标签下的内容 怎么才能只爬取标签呢 好像用beautifulsoup不行 因为html下只有三个标签 其他都被放到字典里了 怎么用解析json进行爬取呢

python爬虫制作接口怎么做

python爬虫, 需要包装成接口,提供一个 url 给 别人用,效果是 打开 这个 url 就自动运行爬虫了。请教下怎么搞, 希望可以说的稍微具体,详细点

python 爬虫XHR获取失败

需求是这样的,我需要写一个爬虫把 http://www.bjbus.com/home/fun_news_list.php?uNewsType=1&uStyle=1 上的所有list和其中的链接爬下来并每天定时查看有没有新的公告。进行简单的 response = urllib2.urlopen('http://www.bjbus.com/home/fun_news_detail.php?uNewsCode=00003475&uNewsType=1') print html = response.read() 发现没有我想要的内容,进一步我发现我想要的东西是通过这个发来的 http://www.bjbus.com/home/ajax_news_list.php 但我单独请求这个没有任何返回,尝试了自己编写headers后无果,请大神们帮帮忙 怎么才能获得所有的公告和其对应的链接。

Python爬虫过程中如何保持一致的cookie

Python爬虫时与服务器的三次交互:1、提取验证码,2、登录,3、目标网页的爬虫 1、在看别人程序时,有的在登录和目标网页爬虫过程中使用cookiejar保存cookie,但这样如何保证获取的验证码与登录所需的相匹配 2、需要保证这三次的过程cookie相同么?以及如何保证? 纠结好久了,万分感谢~

Python爬虫在Django中的使用问题

新入门Django,现在已经写好了一个Python爬虫,直接用Python跑测试没问题, ------在Django项目中加入了一个新的爬虫app,用model创建了表格,和展示爬虫的html ------但是runserver, 以后查看db.sqlite3里面对应的表已经创建,但是里面没有存爬到的内容, ------ 请大神们指教该怎么办, 代码如下 Spider.py, 爬虫并存入model.py 创建的**Website**表 ``` #!/usr/bin/python # -*- coding: utf-8 -*- # import data into mysql(sqlite3), must have these four lines defination: import os # # 我所创建的project名称为learn_spider;里面的app名称为website os.environ.setdefault("DJANGO_SETTINGS_MODULE", "blogproject.settings") # import django # django.setup() # urllib2 package: open resource by URL; re package: use regular expression to filter the objects import urllib.request, re import urllib.parse # BeautifulSoup: abstract data clearly from html/xml files from bs4 import BeautifulSoup # import tables from models.py from .models import Website # urlopen()方法需要加read()才可视源代码,其中decode("utf-8")表示以utf-8编码解析原网页,这个编码格式是根据网页源代码中<head>标签下的<meta charset="utf-8">来决定的。 ul = "https://baike.baidu.com/item/Python" req = urllib.request.Request(ul) html_python = urllib.request.urlopen(req).read().decode("utf-8") #html_python = urllib.request.urlopen('https://baike.baidu.com/item/Python').read().decode("utf-8") soup_python = BeautifulSoup(html_python, "html.parser") # print soup #这里用到了正则表达式进行筛选 item_list = soup_python.find_all('a', href=re.compile("item")) for each in item_list: print (each.string) # use quote to replace special characters in string(escape encode method) urls = "https://baike.baidu.com/item/" + urllib.parse.quote(each.string.encode("utf-8")) print (urls) html = urllib.request.urlopen(urls).read().decode("utf-8") soup = BeautifulSoup(html, "html.parser") if soup.find('div', 'lemma-summary') == None: text = "None" else: text = soup.find('div', 'lemma-summary').get_text() print (text) Website.objects.get_or_create(name=each.string, url=urls, text=text) text_python = soup_python.find('div', 'lemma-summary').text Website.objects.get_or_create(name="Python", url="https://baike.baidu.com/item/Python", text=text_python) ``` model.py 创建Website 表用于存储爬到的内容 ``` # -*- coding: utf-8 -*- from __future__ import unicode_literals from django.db import models # Create your models here. class Website(models.Model): name = models.CharField(max_length=100) url = models.CharField(max_length=100) text = models.TextField() def __unicode__(self): return self.name ``` view.py 提取表中已爬取的内容 ``` from __future__ import unicode_literals from django.shortcuts import render # Create your views here. from .models import Website def show(request): # 这里直接通过QuerySet API获取所有的object,默认返回类型为tuple(元组) queryset = Website.objects.all() # 传入三个渲染参数 return render(request, 'news/nws.html', {'QuerySet': queryset}) ```

python爬虫手机验证怎样解决

python写的爬虫,登陆需要手机验证,有没有大神有什么解决方法,具体点的,,求助

python爬虫如何自动获取Network中的某个XHR地址?

需要获取机场航班数据 该机场的url地址https://zh.flightaware.com/live/airport/KHRL 其航班数据是动态加载进来的,通过F12并刷新后得到 https://zh.flightaware.com/ajax/ignoreall/trackpoll.rvt?token=c35ca45ecbca57cd1ea443d1c65c36426ea06630de026ffd737977e4a40a26ead614b3f2ddde9907453c214a859f7965-88dd7c1a0d41355dafa2ce4ff0e607704b11c422c13281778f5b552d40a619d4c5559546eb9966e7-501878875ac23bacc59c19453f7939a79b200f0e&locale=zh_CN&summary=0 ![图片说明](https://img-ask.csdn.net/upload/201808/25/1535186176_815152.png) 现在的问题是我有数千个机场的url地址,手动F12找到每个机场的航班地址是无法想象的,所以有没有方法自动获得每个机场请求航班数据的那个URL? 万望大神有空瞅瞅!感谢!

python爬虫出现中文乱码,求助大神!

最近在爬取一组网页数据时发现中文乱码,但是以前没有见过类似的乱码。 而且在同级网页中只有个别出现中文乱码现象,其他网页均正常。 乱码字符如下图 ![图片说明](https://img-ask.csdn.net/upload/201710/06/1507275786_926647.png) 求助!

爬虫 UnboundLocalError

python爬虫里 定义了一个class, 类里边 定义了 一个def ,def 里 定义的 for循环, for循环 里边 有个 like_url 变量 运行时 报错 如下:UnboundLocalError: local variable 'like_url' referenced before assignment UnboundLocalError:在赋值之前引用的本地变量“like_url” 疑问地方:class类 也没有另外定义相同名称的变量,也就是说整个 代码 就定义了一次like_url. (like_url 保存的是 拼接 后 要get发送的url链接,链接每次都不一样) 然后运行爬虫, 有时会报这个错误,有时又不报错

如何在 Python 中获取列表中元素的数量?

<div class="post-text" itemprop="text"> <pre><code>items = [] items.append("apple") items.append("orange") items.append("banana") # FAKE METHOD:: items.amount() # Should return 3 </code></pre> <p>How do I get the number of elements in the list?</p> </div> <p>转载于:https://stackoverflow.com/questions/1712227/how-to-get-the-number-of-elements-in-a-list-in-python</p>

python 爬虫 怎么获取标签中的注释?我用得lxml解析html

``` <span>当前第9127页&nbsp;<!--共136904条-->&nbsp;&nbsp;</span> ``` 怎么才能获取注释里的值呢? ``` tree=etree.HTML(page) pagenumber=tree.xpath(xpathStr) for i in pagenumber: totalpage=filter(str.isdigit,str(i)) ```

python+selenium如何抓取diplay:none的标签内容?

![图片说明](https://img-ask.csdn.net/upload/201711/23/1511436782_235289.png) 如图 我抓取到的页面里面由于这几个标签是displaynone 导致抓不到 代码如下 from selenium import webdriver url = "http://t.shuqi.com/#!/ct/read/bid/6584515/cid/639384" driver = webdriver.PhantomJS(executable_path='G:/phantomjs/bin/phantomjs.exe') driver.get(url) js = 'document.getElementsByClassName("read-body")[0].getElementsByTagName("div")[3].style.display="block";' driver.execute_script(js) contentText = driver.find_element_by_id('read_in').text w = open('G:/python/pytxt/dynamic/1.txt','w') w.write(contentText) driver.quit()

Python语法错误:TypeError: string indices must be integers

是这样的,这是个Python爬虫程序,有时候会中断 到这个地方,是字符串下标不对? ![图片说明](https://img-ask.csdn.net/upload/201909/20/1568948882_384629.png) ![图片说明](https://img-ask.csdn.net/upload/201909/20/1568948557_509140.png) ![图片说明](https://img-ask.csdn.net/upload/201909/20/1568948570_798667.png)

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《Oracle Java SE编程自学与面试指南》最佳学习路线图2020年最新版(进大厂必备)

正确选择比瞎努力更重要!

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

正确选择比瞎努力更重要!

都前后端分离了,咱就别做页面跳转了!统统 JSON 交互

文章目录1. 无状态登录1.1 什么是有状态1.2 什么是无状态1.3 如何实现无状态1.4 各自优缺点2. 登录交互2.1 前后端分离的数据交互2.2 登录成功2.3 登录失败3. 未认证处理方案4. 注销登录 这是本系列的第四篇,有小伙伴找不到之前文章,松哥给大家列一个索引出来: 挖一个大坑,Spring Security 开搞! 松哥手把手带你入门 Spring Security,别再问密...

字节跳动面试官竟然问了我JDBC?

轻松等回家通知

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

阿里面试官让我用Zk(Zookeeper)实现分布式锁

他可能没想到,我当场手写出来了

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

自从喜欢上了B站这12个UP主,我越来越觉得自己是个废柴了!

不怕告诉你,我自从喜欢上了这12个UP主,哔哩哔哩成为了我手机上最耗电的软件,几乎每天都会看,可是吧,看的越多,我就越觉得自己是个废柴,唉,老天不公啊,不信你看看…… 间接性踌躇满志,持续性混吃等死,都是因为你们……但是,自己的学习力在慢慢变强,这是不容忽视的,推荐给你们! 都说B站是个宝,可是有人不会挖啊,没事,今天咱挖好的送你一箩筐,首先啊,我在B站上最喜欢看这个家伙的视频了,为啥 ,咱撇...

代码注释如此沙雕,会玩还是你们程序员!

某站后端代码被“开源”,同时刷遍全网的,还有代码里的那些神注释。 我们这才知道,原来程序员个个都是段子手;这么多年来,我们也走过了他们的无数套路… 首先,产品经理,是永远永远吐槽不完的!网友的评论也非常扎心,说看这些代码就像在阅读程序员的日记,每一页都写满了对产品经理的恨。 然后,也要发出直击灵魂的质问:你是尊贵的付费大会员吗? 这不禁让人想起之前某音乐app的穷逼Vip,果然,穷逼在哪里都是...

立即提问
相关内容推荐