2 cbb111705102 cbb111705102 于 2016.05.12 15:05 提问

用python写的爬虫,但获取的网页源码不全,是什么原因?求帮助啦,呜呜。。。。

import urllib2;

import urllib;

import time;

import re;

url= str("http://technet.microsoft.com/en-us/windows/release-info/");

req = urllib2.Request(url);

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36");

response=urllib2.urlopen(req);

html=response.read();

print "html=",html;

1个回答

oyljerry
oyljerry   Ds   Rxr 2016.05.12 15:12

你可以用chrome的network查看就知道了,这个页面是异步加载返回的,它不是直接返回请求的数据,所以你爬虫只能抓取到最开始的部分数据,后面的数据是由Javascript异步加载进来的

你可以用python的selenium库,用webdriver加载页面来获取内容,然后再用xpath解析里面的数据

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!