用python写的爬虫，但获取的网页源码不全，是什么原因？求帮助啦，呜呜。。。。

import urllib2;

import urllib;

import time;

import re;

url= str("http://technet.microsoft.com/en-us/windows/release-info/");

req = urllib2.Request(url);

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36");

response=urllib2.urlopen(req);

html=response.read();

print "html=",html;

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-05-12 07:12
关注
你可以用chrome的network查看就知道了，这个页面是异步加载返回的，它不是直接返回请求的数据，所以你爬虫只能抓取到最开始的部分数据，后面的数据是由Javascript异步加载进来的

你可以用python的selenium库，用webdriver加载页面来获取内容，然后再用xpath解析里面的数据

解决 4
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
利用 Python 爬取了近 3000 条单身女生的数据，究竟她们理想的择偶标准是什么？
2020-07-13 16:40

Jack Tian的博客灵感来源与学习：利用 Python 爬取了 13966 条运维招聘信息，我得出了哪些结论？本文原创作者：壹加柒本文来源链接：https://blog.csdn.net/yu1300000363/article/details/107316568 前几天手机上CSDN推荐了一篇...
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬虫初学者，网页手动打开过才显示数据，爬虫访问没打开过的网页，爬不到数据怎么办？ python 有问必答爬虫
2022-01-21 09:58

回答 2 已采纳将请求头的参数都设置进去，然后在独立设置cookie参数
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
【python实战】还是单身？教你如何用python追到女朋友
2021-06-12 11:56

一条coding的博客聊天机器人网上有很多基于微信实现的文章，比如利用itchat,这些都需要一直登录微信网页版，但目前微信网页版已经逐渐关闭，我的微信注册已经很早，但还是用不了网页版微信。所以，一条想到了企业微信，研究以下，...
Python的requests.get()获取不到正确的网页源码 python 有问必答
2021-06-21 14:46

回答 2 已采纳需要添加headers。 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36
python爬取动态网页时为什么动态网页的url的源码和网页源码不一样？ html5 python 正则表达式
2020-01-30 18:11

回答 1 已采纳加载更多是通过ajax异步加载的请求的是 Request URL: https://cn.burberry.com/service/shelf/mens-new-arrivals-new-in/?
用python写爬虫和用Java写爬虫的区别是什么？ java python 爬虫
2016-04-26 01:53

回答 6 已采纳 python开发起来方便，快速，爬虫库也比较好用，scrapy
Python3.X 爬虫实战（动态页面爬取解析）
2017-07-02 20:08

工匠若水的博客私信联系我】1 背景不知不觉关于 Python 3.X 爬虫系列已经介绍了如下系列：《正则表达式基础》《Python3.X 爬虫实战（先爬起来嗨）》《Python3.X 爬虫实战（静态下载器与解析器）》《Python3.X 爬虫实战（并发...
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
Python爬虫实战--58同城二手商品爬虫
2018-11-20 22:05

雾里看花_lhh的博客呜呜~~本来说今天就把代码上传上来，可惜了，还是有点差错，今天估计赶不上啦！明天加油吧！今天我们一起来好好分析一下，看看我们该如何去爬去58二手商品。目标站点分析目标URL：http://bj.58.com/sale.shtml 第...
Python网络爬虫入门笔记2
2023-07-16 19:41

念惜`的博客鄙人听课笔记，关于爬虫中requests以及一小部分正则爬取图片
没有解决我的问题, 去提问

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料