2 yingrancyr yingrancyr 于 2014.12.10 15:56 提问

python获取html源码中省略文本的内容
  • 浏览器打开该网页,页面可以显示完整的文本。
  • 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
 htmlContent = urllib2.urlopen().read().decode('utf-8')

请问用python,要怎么获取完整的文本?

谢谢!

2个回答

oyljerry
oyljerry   Ds   Rxr 2014.12.10 17:29

网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容

caozhy
caozhy   Ds   Rxr 2014.12.10 18:06

用fiddler这个软件抓浏览器和服务器的通讯数据,看是什么请求包含了完整的文本。然后用python直接模拟。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
html文本溢出显示省略号(...)
多行文本溢出显示省略号(...) overflow : hidden; text-overflow: ellipsis; display: -webkit-box; -webkit-line-clamp: 2; -webkit-box-orient: vertical; 单行文本溢出显示省略号(...)white-space:nowrap; overflow:hidden; text
delphi获得webbrowser中的html文本
procedure TForm1.btn1Click(Sender: TObject); var doc:olevariant; str:string; begin doc:=wb1.Document; //获取元素的值 {str:=doc.all.xx.value; ShowMessage(str);} //写入htnl {doc.cle
正则提取出HTML正文(剔除标签内容)python实现
正则提取出HTML正文(剔除标签内容)python实现
html内容省略显示
两种方式显示: 1.title方式显示: <!DOCTYPE html>   <html>   <head>   <meta http-equiv=”Content-Type” content=”text/html; charset=utf-8” /> &lt...
css实现文字过长显示省略号的方法
 当对象内文本溢出时显示省略标记 这是一个例子,其实我们只需要显示如下长度: css实现网页中文字过长截取... title class应该这样写: .title{ width:300px; white-space:nowrap; overflow:hidden; text-overflow:ellipsis;} 说明: 1、宽度一定要设置,可以根据实际需求调整。 2、whit
Python 网络抓取和文本挖掘-1 HTML 和 HTMLParser
应用urllib2和HTMLParser从网页中提取需要的数据。
python3爬虫获取html内容及各属性值
今天用到BeautifulSoup解析爬下来的网页数据 首先导入包from bs4 import BeautifulSoup 然后可以利用urllib请求数据 记得要导包 import urllib.request 然后调用urlopen,读取数据 f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc9
基于BeautifulSoup的网页文本提取(1)
一.先安装python 二.Windows平台安装Beautiful Soup Beautiful Soup是一个Python的一个库,主要为一些短周期项目比如屏幕抓取而设计。有三个特性使得它非常强大: 1.Beautiful Soup提供了一些简单的方法和Python术语,用于检索和修改语法树:一个用于解析文档并提取相关信息的工具包。这样你写一个应用不需要写很多代码。 2.Beautifu
html 文字溢出时变成省略号
html 文字溢出时变成省略号 遇到很多次这种情况了,但每次都是去查百度,还是没有记牢。 记一下,以后往这查,嘻嘻 需要的代码如下overflow: hidden; white-space: nowrap; //使其不换行 text-overflow:ellipsis;效果如图:
html动态添加需要显示的内容/文字过多,超出部分以省略号显示,鼠标移入时全部显示
表格中有时某个元素里内容会很多,多到影响了整个页面布局的情况,除了写死在html中的内容,只要是动态添加的数据都很有可能会发生这种情况,举个例子简单说一下自己目前的处理方法,写的不好的请大神多多指教! 先说一下会出现的一些情况: 在CSS样式中我设置的很明确,后面两个 列 的宽度是 40% 不过现在这种情况明显已经超过了40%,甚至已经将前面两列挤得变形了 ; 造成这样的原因是因为第二行中