2 yingrancyr yingrancyr 于 2014.12.10 15:56 提问

python获取html源码中省略文本的内容
  • 浏览器打开该网页,页面可以显示完整的文本。
  • 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
 htmlContent = urllib2.urlopen().read().decode('utf-8')

请问用python,要怎么获取完整的文本?

谢谢!

2个回答

oyljerry
oyljerry   Ds   Rxr 2014.12.10 17:29

网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容

caozhy
caozhy   Ds   Rxr 2014.12.10 18:06

用fiddler这个软件抓浏览器和服务器的通讯数据,看是什么请求包含了完整的文本。然后用python直接模拟。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!