- 浏览器打开该网页,页面可以显示完整的文本。
- 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
htmlContent = urllib2.urlopen().read().decode('utf-8')
请问用python,要怎么获取完整的文本?
谢谢!
htmlContent = urllib2.urlopen().read().decode('utf-8')
请问用python,要怎么获取完整的文本?
谢谢!
网页可能用了ajax等异步技术来显示页面内容
urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容