为何用Python做爬虫时抓取下来的页面跟源代码不一样？

代码如下：

-- coding:utf-8 --

import urllib
import urllib2
import re
baseURL = 'http://zhidao.baidu.com/question/491268910.html'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}
#request = urllib2.Request(baseURL)
request = urllib2.Request(url=baseURL,headers=headers)
response = urllib2.urlopen(request)
print response.read().decode("GBK")

我用上面的代码爬取一个百度知道的答案，把抓取到的信息打印出来为什么有的地方跟网页审查元素所显示的代码不一样？
网页原来的段落为：
这段话对应的源代码为：
抓取网页信息后的对应的代码为：
我尝试了一个，在提取页面时，加载一个headers头部，但是结果还是不行，求各路大神指点，直接把解决办法附在评论区里，谢谢各路大神了。。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_23214785 2016-05-23 07:32
关注
要爬取js等动态生成的数据，可以使用神箭手云爬虫开发框架（shenjianshou.cn）,只需要设置一下enableJS：true就可以自动爬取了，很方便！

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫爬取网页源代码为空，求问原因&解决方案（向） python 爬虫
2015-08-11 04:55

回答 5 已采纳代码： ``` #!/usr/bin/env python3 #-*- coding=utf-8 -*- import urllib3 if __name__ == '
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
Python爬虫实验，抓取二手房数据和页面内容，实验源代码和设计报告
2023-05-24 13:16

1.爬取北京链家官网二手房数据 ...要求爬取东城、西城、海淀、朝阳四个...2.爬取学堂在线的合作院校页面内容 https://www.xuetangx.com/university/all 要求将开课院校的学校名称和对应的课程数量，保存到一个json文件中。
这是爬虫抓取bing页面的图片，请问这个问题出在哪 python
2022-07-18 18:01

回答 4 已采纳生成的文件语法错误,应该把 " " 去掉的
爬取网页时遇到网页代码为编码形式如何进行反编码？ python 前端
2022-05-07 11:36

回答 3 已采纳典型的被反爬机制检查到了。补全请求头或者是cookie再进行访问。可以发一下网站让大家伙们练练手看看反而更快的解决问题。
才照着敲的爬虫代码，但是没有输出结果 python 爬虫
2021-11-18 12:28

回答 4 已采纳其实是你正则匹配中写错了，正确的是这样的代码如下： obj = re.compile(r'<li>.*?<div class="item">.*?<span class=
完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf
2021-06-19 20:22

本教程将实际操作使用Python Scrapy框架爬取传智播客教师页面教师的个人信息。爬取页面网址：http://www.itcast.cn/channel/teacher.shtml#ac Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于...
用xpath抓取图片结果为空，求解答！ python 爬虫
2023-01-15 22:03

回答 2 已采纳打开文件模式改为wb
为什么我的函数命令突然执行不了了呀？ python 开发语言
2022-01-25 13:52

回答 3 已采纳换个别的名字？
关于爬虫同步方法修改为异步协程的问题 python 可用性测试
2021-09-25 16:10

回答 1 已采纳报错来自于aiohttp，传递给aiohttp的URL有误，解析不了所以报错了URL有误是因为正则结果不对，把提取URL的正则改一下就好了 obj2 = re.compile( r'<l
Python车牌识别、车牌抓取源代码
2022-02-11 16:04

Python车牌识别、车牌抓取源程序，运行程序前需先导入cv2和numpy包。
爬取笔趣阁的小说出现错误，正则表达式和网页解码 python 爬虫
2021-08-20 17:11

回答 1 已采纳原文是双引号，你写成单引号了，所以识别不到章节目录有帮助望采纳
Python之多线程爬虫抓取网页图片的示例代码
2020-12-25 12:50

那么请使用python语言，构建一个抓取和下载网页图片的爬虫。当然为了提高效率，我们同时采用多线程并行方式。思路分析 Python有很多的第三方库，可以帮助我们实现各种各样的功能。问题在于，我们弄清楚我们需要...
Python3简单爬虫抓取网页图片代码实例
2021-01-20 06:10

现在网上有很多python2写的爬虫抓取网页图片的实例，但不适用新手（新手都使用python3环境，不兼容python2），所以我用Python3的语法写了一个简单抓取网页图片的实例，希望能够帮助到大家，并希望大家批评指正。 ...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

为何用Python做爬虫时抓取下来的页面跟源代码不一样？

-*- coding:utf-8 -*-

5条回答

悬赏问题

-- coding:utf-8 --