python获取html源码中省略文本的内容
  • 浏览器打开该网页,页面可以显示完整的文本。
  • 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
 htmlContent = urllib2.urlopen().read().decode('utf-8')

请问用python,要怎么获取完整的文本?

谢谢!

2个回答

网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容

用fiddler这个软件抓浏览器和服务器的通讯数据,看是什么请求包含了完整的文本。然后用python直接模拟。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python读取文本文件的特定内容

图片是一个数据集片段,如何写一段Python代码,提取文件中的id和text,如 3606464114611322 【中国一村庄上百村民移民澳大利亚 靠做电焊工拿绿卡】月入两三万,住200多平方米的房子…… 3606464897589553 #小午快报#【济南一个201户的村庄有100多村民移民澳大利亚】 3606465602473943 河南商报: 【济南有个村儿:100多名村民移民澳大利亚】 ![图片说明](https://img-ask.csdn.net/upload/201704/10/1491806376_581740.png)

python使用elementTree如何读取xml文件标签嵌套中的文本。

``` <text top="310" left="449" width="347" height="16" font="1"> <i>Fig. 1.</i> Training with brain computer interface–neuromuscular electrical </text> ``` ``` <text top="310" left="449" width="347" height="16" font="1"> Training with brain computer <i>Fig. 1.</i> interface–neuromuscular electrical </text> ``` 上述是xml文件中的一部分,如何用python处理像这样大标签文本中嵌入着子标签,从而读取到完整的文本内容? 子标签如果在文本开头的话,直接输出.text会输出None; 子标签如果在文本中间的话,就会只输出前半部分(即Training with brain computer)。 有没有什么办法能输出完整的文本, 即Fig. 1.Training with brain computer interface–neuromuscular electrical 和 Training with brain computer Fig. 1. interface–neuromuscular electrical 这两种结果?求大神指点。。。

python如何获取文本中字符的个数?不是字节啊

一篇中文文章 ,里面含有汉字和各种标点符号还有字母数字什么的 现在我要统计汉字的个数和他所占的比例,查到的len()方法是获取字节数的 比如我用gbk编码,3000字的文章,字节数6800多,这不是我想要的, 我要的是实实在在的汉字的个数,还有整个文本的字符的个数,各位有什么办法没? python貌似是会自动把我获取到的gbk编码的字符串解码成unicode 很蛋疼啊

python爬虫如何爬取标签里的文本内容?

![图片说明](https://img-ask.csdn.net/upload/202003/27/1585288128_17417.png) 请问怎么用BeautifulSoup库获取标签a内的Myxinidae文本内容?

python的selenium怎么获取大量文本

t=driver.find_element_by_css_selector(".yu_info .dd:first-child span").text for i in t: print i 比如这段代码,我定位成功后,只会输出匹配到的第一项,我该怎么才能输出匹配到的所有项呢?求大神解答,谢谢

python 怎么获取request 中 body的内容

python 怎么获取request 请求中 body的内容? 谢谢 就是红框中的内容 ![图片说明](https://img-ask.csdn.net/upload/201905/10/1557479798_54096.png) 这是工具里模拟发送的,上图红框中的内容,是写在下面request body里的东西 ![图片说明](https://img-ask.csdn.net/upload/201905/10/1557479812_304027.png) 但是在python里模拟请求时,因为有ud的值是每次登陆时都变一次。 所以想怎么能在它本身发送request时把body里的内容保存下来。 这样就可以取出里面的ud值 使用 这样不知道我表述明白没。我也是在学习阶段。希望指教

Python读取txt文本文件数据插入到数据库中,数据库中只有txt中最后一行数据

Python读取本地txt文本文件,将数据插入数据库表中,代码在下面,运行数据都能读取出来,但是不知道为什么数据库表中只有txt文件的最后一行数据,求问解决办法 ``` import MySQLdb # 连接mysql数据库 conn = MySQLdb.connect(host='localhost', port=3306, user='root', passwd='root', db='test21', charset='utf8') cur = conn.cursor() with open('b.txt', 'rb') as f: lines = f.readlines() if lines: for line in lines: print line line = line.strip('\n') line = line.split() # id+=1 dt = line[0] uid = line[1] cn = line[2] # cn=cn.decode('gbk').encode('utf-8') org = line[3] # print cn # 将数据插入mysql数据库 cur.execute("DROP TABLE IF EXISTS a") cur.execute("CREATE TABLE a ( dt varchar(255) NOT NULL, uid varchar(255) NOT NULL,cn varchar(255) NOT NULL,org varchar(255) NOT NULL )") cur.execute("insert into a(dt,uid,cn,org) values(%s,%s,%s,%s)", line) conn.commit() print('Total:'+str(len(lines))) print('write to mysql success') conn.close() ```

如何用python读取TXT文件的特定内容

![图片说明](https://img-ask.csdn.net/upload/201811/18/1542521560_747455.png) 如图,TXT文件里的每段内容都是以PT P开始,ER结束,怎样提取每段内容里PN,TI,AU 后的数据

【python】怎样用python读取txt并按规则写入excle

**求大神帮忙!可以给赞助一包烟钱** **将记事本中的 多组 同类型信息 通过python程序读取 写到excle中,效果如下** ![图片说明](https://img-ask.csdn.net/upload/201903/22/1553237325_339326.png) **记事本中信息开头括号里的内容就是列头** ![图片说明](https://img-ask.csdn.net/upload/201903/22/1553237334_331608.png) **效果如图,txt文本是如图的有规律的多组数据,将每组数据写入excle的一行,每组数据最后一项“成员”内容的数量不一定,就在同一行往后,一格一个。用python该怎么实现**

Python读取符合一定条件的Excel数据,复制到文本文件中

大神们,求助,求助 Python初学者,尝试利用Python遍历读取Excel中B列的数据,并以其数据对应为文本文件名称,同时,复制Excel中A列的数值到对应的文本文件

python+selenium怎么获取双引号内的文本

![图片说明](https://img-ask.csdn.net/upload/202004/11/1586571992_524537.png) 使用text获取的值是空driver.find_element_by_xpath("//*[@id='software-contain-template']/ul/li[2]/div[2]").text

用Python做网络文本的情感分析

本人自然语言处理一窍不通,但有一紧急任务要处理。求大牛用Python给我的一份文本做情感分析啊!

怎样用python获取安卓手机粘贴板的内容,然后输出到excel啊?

怎样用python获取安卓手机粘贴板的内容,然后输出到excel啊?

python使用正则表达式提取文本中的中文项

'kong=\'\';var line_points=\'\';var line_runtime=\'\';kresult+="m5aa28c34|m5c626c4a|";\r\nvar m5aa28c34= new Array("169路去程","市区线路","水晶城 05:20-19:15 |长白港湾站 06:15-20:15","无人售票,投币每人次1元,IC卡有效","沈阳安运巴士有限公司","169路车型由XML6102UE52型更换为黄海DD6118S13型客车,线路配车为34台,来源于162路。","EUVSHJDZJUJUWRA","EUVSVSHZJUSDVWR|水晶城|148路@2deb8f03,169路@af7e1089","EUVTAIUZJUSCBEA|水晶城街八家子|148路@2deb8f03,148路@2deb8f03,169路@af7e1089,169路@af7e1089","EUVWAHSZJUSBHHC|水晶城街一汽福达|148路@2deb8f03,148路@2deb8f03,169路@af7e1089,169路@af7e1089","EUVUUGSZJUSAABG|良城美景|107路@9c557848,107路@9c557848,112路@94192360,112路@94192360,133路@d810a85c,133路@d810a85c,168路北线@2e2b17a2,168路南线@d0229eed,168路北线@2e2b17a2,168路南线@d0229eed,169路@af7e1089,169路@af7e1089,218路@8beac754,218路@8beac754,384路@e0499228,384路@e0499228,385路@7a32571f,385路@7a32571f,386路@e3ce166e,386路@e3ce166e","EUVTIBHZJURVWHC|辽宁奥通|107路@9c557848,107路@9c557848,112路@94192360,112路@94192360,133路@d810a85c,133路@d810a85c,168路北线@2e2b17a2,168路南线@d0229eed,168路北线@2e2b17a2,168路南线@d0229eed,169路@af7e1089,169路@af7e1089,218路@8beac754,218路@8bea 想要把中间的车站名称提取出来 例如|水晶城|

如何利用python提取文本中有用的关键词?

我已爬取下来了亚马逊某一商品的评论,想从评论中提取出评论维度的关键词(比如商品大小、颜色、电池寿命等),大神可们以随便拿一段英文评论给我一份代码的案例吗?感激不尽!

Python怎么删除文本中的所有标点符号?

想要把一大段中文文本中所有的标点符号删除掉,然后分词制作语料库使用,大神们有没有办法呢?或者哪位大神有中文语料库给个链接好不好?我想做新闻的文本相似度分析,提取关键词的时候需要语料库。 谢谢大神们~~~~~

uiautomator怎么使用python获取某个控件下所有的TextView控件里面的文本

![图片说明](https://img-ask.csdn.net/upload/201905/20/1558356322_914603.png) 如上图 我需要获取1控件下面所有的2控件里面的文本 求大佬解惑

用python提取div里的文本

import requests from bs4 import BeautifulSoup import pprint import json url="http://www.miaomu.com/qyml/default.asp" r= requests.get(url) html=r.content.decode('gbk','ignore') soup=BeautifulSoup(html,"html.parser") articles=soup.find_all("div",{"class":"gyjtnr"}) articles![图片说明](https://img-ask.csdn.net/upload/202001/14/1578970850_103571.jpg)

python对文本文档的比对和处理

现有两个txt文本文档,A文档:![图片说明](https://img-ask.csdn.net/upload/201905/09/1557367314_531072.png)B文档:![图片说明](https://img-ask.csdn.net/upload/201905/09/1557367326_922915.png)想要通过python脚本来生成![图片说明](https://img-ask.csdn.net/upload/201905/09/1557367353_930871.png)的文档,实际操作时的数据量比举的例子大得多,所以需要脚本来实现。多谢诸位大大的帮助!

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Intellij IDEA 实用插件安利

1. 前言从2020 年 JVM 生态报告解读 可以看出Intellij IDEA 目前已经稳坐 Java IDE 头把交椅。而且统计得出付费用户已经超过了八成(国外统计)。IDEA 的...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

魂迁光刻,梦绕芯片,中芯国际终获ASML大型光刻机

据羊城晚报报道,近日中芯国际从荷兰进口的一台大型光刻机,顺利通过深圳出口加工区场站两道闸口进入厂区,中芯国际发表公告称该光刻机并非此前盛传的EUV光刻机,主要用于企业复工复产后的生产线扩容。 我们知道EUV主要用于7nm及以下制程的芯片制造,光刻机作为集成电路制造中最关键的设备,对芯片制作工艺有着决定性的影响,被誉为“超精密制造技术皇冠上的明珠”,根据之前中芯国际的公报,目...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

百度工程师,获利10万,判刑3年!

所有一夜暴富的方法都写在刑法中,但总有人心存侥幸。这些年互联网犯罪高发,一些工程师高技术犯罪更是引发关注。这两天,一个百度运维工程师的案例传遍朋友圈。1...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《Oracle Java SE编程自学与面试指南》最佳学习路线图2020年最新版(进大厂必备)

正确选择比瞎努力更重要!

字节跳动面试官竟然问了我JDBC?

轻松等回家通知

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

实时更新:计算机编程语言排行榜—TIOBE世界编程语言排行榜(2020年6月份最新版)

内容导航: 1、TIOBE排行榜 2、总榜(2020年6月份) 3、本月前三名 3.1、C 3.2、Java 3.3、Python 4、学习路线图 5、参考地址 1、TIOBE排行榜 TIOBE排行榜是根据全世界互联网上有经验的程序员、课程和第三方厂商的数量,并使用搜索引擎(如Google、Bing、Yahoo!)以及Wikipedia、Amazon、YouTube统计出排名数据。

立即提问
相关内容推荐