yingrancyr 2014-12-10 07:56 采纳率: 33.3%
浏览 1905

python获取html源码中省略文本的内容

  • 浏览器打开该网页,页面可以显示完整的文本。
  • 但用Python获取网页源码时,发现源码中只显示文本的前半部分,后面文本用省略号(...)替代了。
 htmlContent = urllib2.urlopen().read().decode('utf-8')

请问用python,要怎么获取完整的文本?

谢谢!

  • 写回答

2条回答

  • oyljerry 2014-12-10 09:29
    关注

    网页可能用了ajax等异步技术来显示页面内容
    urllib等获取的时候只能取到当时页面内容,可能页面内容还没有加载完成
    这种情况需要用selenium等webdriver机制模拟浏览器来获取所有的页面内容

    评论

报告相同问题?

悬赏问题

  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料