python获取html源码中省略文本的内容
  • 浏览器打开该网页,页面可以显示完整的文本。
  • 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
 htmlContent = urllib2.urlopen().read().decode('utf-8')

请问用python,要怎么获取完整的文本?

谢谢!

2个回答

网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容

用fiddler这个软件抓浏览器和服务器的通讯数据,看是什么请求包含了完整的文本。然后用python直接模拟。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问