cbb111705102 2016-05-12 07:05 采纳率: 0%
浏览 10011

用python写的爬虫,但获取的网页源码不全,是什么原因?求帮助啦,呜呜。。。。

import urllib2;

import urllib;

import time;

import re;

url= str("http://technet.microsoft.com/en-us/windows/release-info/");

req = urllib2.Request(url);

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36");

response=urllib2.urlopen(req);

html=response.read();

print "html=",html;

  • 写回答

1条回答 默认 最新

  • oyljerry 2016-05-12 07:12
    关注

    你可以用chrome的network查看就知道了,这个页面是异步加载返回的,它不是直接返回请求的数据,所以你爬虫只能抓取到最开始的部分数据,后面的数据是由Javascript异步加载进来的

    你可以用python的selenium库,用webdriver加载页面来获取内容,然后再用xpath解析里面的数据

    评论

报告相同问题?

悬赏问题

  • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
  • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)
  • ¥20 matlab yalmip kkt 双层优化问题
  • ¥15 如何在3D高斯飞溅的渲染的场景中获得一个可控的旋转物体
  • ¥88 实在没有想法,需要个思路
  • ¥15 MATLAB报错输入参数太多
  • ¥15 python中合并修改日期相同的CSV文件并按照修改日期的名字命名文件
  • ¥15 有赏,i卡绘世画不出
  • ¥15 如何用stata画出文献中常见的安慰剂检验图
  • ¥15 c语言链表结构体数据插入