chrome保存网页的一个机制问题求助

    最近在做一个爬虫，用手机新浪做实验，抓取sina.cn，但是抓取下来后用手机打开发现页面对不齐。后来用chrome打开sina.cn并保存网页，比对自己下载的首页html文件，发现如下奇怪问题：
    chrome保存sina.cn的时候，如果网页类型选择“仅html”，那么跟我抓取的网页内容是一致的，并且下载的html头部标签的结尾处如下：

 <script src="http://mjs.sinaimg.cn/wap/online/home/v7/dest/js/config.js?t=247322956"></script>
<script src="http://mjs.sinaimg.cn/wap/online/public/newLoader/loader.min.js?v=0.3"></script>
<script>load.css();</script>
</head>

    如果网页保存类型为“全部网页”，那么下载的html文件头部标签的结尾处为：

<script src="./手机新浪网1_files/config.js"></script>
<script src="./手机新浪网1_files/loader.min.js"></script>
<script>load.css();</script>
<link href="./手机新浪网1_files/home-b000f9732d.min.css" rel="stylesheet">
<link href="./手机新浪网1_files/main.css" rel="stylesheet" type="text/css">
</head>

    也就是说，采用保存全部网页的时候，html文件头部会多出两个“link”标签，当把这两个标签添加到我抓下来的sina首页html中的时候，就可以正常打开网页了，所以我想请问：
    （1）为什么chrome采用这两种不同的保存方式会使得这个html文件存在差别？
    （2）如果我希望自己抓取的网页能够像chrome采用保存整个网页时的方式一样，即下载下来的网页存在后面的那两个.css文件，该怎么做？
    请懂这方面的达人不吝赐教，十分感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Go 旅城通票 2016-08-18 13:51
关注
全部保存就是将js生成的内容一起保存了，仅html就是查看源代码得到的那些内容，不包含js生成，和服务端xhr对象请求后得到的内容一样

你要获取js动态生成或者加载的内容，需要用webbrowser装载网页后获取所有js解析生成的代码才行，这就是为什么搜索引擎搜索不到js动态加载内容，不利于seo的问题，因为用的是服务器端xhr获取内容，不是webbrowser解析后的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

chrome保存网页的一个机制问题求助
2016-08-18 11:53

回答 2 已采纳全部保存就是将js生成的内容一起保存了，仅html就是查看源代码得到的那些内容，不包含js生成，和服务端xhr对象请求后得到的内容一样你要获取js动态生成或者加载的内容，需要用webbrows
chrome调试断点问题 chrome devtools
2022-11-03 13:57

回答 3 已采纳你在点击事件的处理函数里打断点，会在事件触发的时候进入断点。你的断点是打在了立即执行的位置，所以需要刷新才能进断点
selenium webdriver 中没有Chrome 这个属性 chrome python selenium
2022-08-01 10:30

回答 3 已采纳你看看你导的包你直接将webdriver.Chrome导入了
深入理解 web 协议(一)- http 包体传输
2019-10-10 17:12

vivo互联网技术的博客开坑这个系列的原因，主要是在大前端学习的过程中遇到了不少跟web协议有关的问题，之前对这一块的了解仅限于用charles抓个包，基本功欠缺。强迫症发作的我决定这一次彻底将web协议搞懂搞透，如果你遇到了和我一样的...
升级chrome最新版后SameSite设置问题 chrome 有问必答
2021-05-28 19:10

回答 2 已采纳修改系统吧，跨域设置cookie的域名需要启用https，同时cookie要添加secure; SameSite=None，这2个标志。 Response.AddHeader("P3P", "CP
chrome 间歇性出现连接已重置，网页无法访问的问题。该怎么解决？ chrome html5 其他
2021-06-01 22:11

回答 1 已采纳我觉得是谷歌版本问题，我之前升级90版本的时候就有这个问题
关于#chrome#的问题，如何解决？ chrome edge
2022-08-22 15:22

回答 2 已采纳 chrome、edge两个窗口内分别开1个标签页更耗电和内存
Cas认证学习笔记（一）---SSO了解
2024-04-22 10:54

CV操作者的博客如果认证中心发现用户尚未登录，则返回登录页面，等待用户登录，如果发现用户已经登录过了，就不会让用户再次登录了，而是会跳转回目标 URL ，并在跳转前生成一个 Token，拼接在目标 URL 的后面，回传给目标应用系统...
有个问题请教下 , C#利用Selenium.chrome做的自动登录系统 , 无法打开chrome浏览器 c# chrome selenium
2021-09-07 08:41

回答 2 已采纳我猜你是分不清winform和webform有什么区别你发布在iis里的是个网站，不要企图用网站上运行一段代码去打开客户端机器上的IE
请问chrome-perfomance录制的每帧截图是否可以保存下来 chrome 性能优化
2023-01-31 21:12

回答 1 已采纳回答不易，求求您采纳点赞哦抱歉，Chrome DevTools 中的 Performance 工具不支持直接下载每帧的截图。你可以通过以下几种方法间接解决这个问题：截取整个流程的截图：可以在录
一个打印机连续打印的问题 chrome
2020-10-12 09:20

回答 1 已采纳这种东西很难说，一般都是靠测试来决定的。以前为了做一个单据套打的程序，我浪费了一箱打印纸呢。
webmagic采集CSDN的Java_WebDevelop页面
2016-05-23 09:53

小扁加油的博客 , jquery Json解析, 求json大神帮我看看这个格式的json如何解析, 求助：jsp+easyUI保存多个同类型model, 关于PWC6033: Unable to compile class for JSP问题的求助, 关于在同一个页面。点击查询按钮，下面会出现表格...
chrome访问一个json文件中文乱码 chrome json tomcat
2016-04-05 12:51

回答 2 已采纳 json文件存储为utf-8编码没有
银之森（一）需求分析文档
2020-05-05 10:34

fivfi的博客 (1) 理解并描述问题的信息域, 并以此建立数据模型. (2) 定义软件应完成的功能, 并以此建立功能模型. (3) 描述作为外部事件结果的软件行为, 建立行为模型. (4) 对描述信息, 功能和行为的模型进行分解, 用层次的...
前端开发问题大杂烩
2015-11-11 14:16

I_LOVE_US的博客说说你对闭包的理解使用闭包主要是为了设计私有的方法和变量。闭包的优点是可以避免全局变量的污染，缺点是闭包会常驻内存，会增大内存使用量，使用不当...cookie虽然在持久保存客户端数据提供了方便，分担了服务器
没有解决我的问题, 去提问

悬赏问题

¥15 救！ENVI5.6深度学习初始化模型报错怎么办？
¥30 eclipse开启服务后，网页无法打开
¥30 雷达辐射源信号参考模型
¥15 html+css+js如何实现这样子的效果？
¥15 STM32单片机自主设计
¥15 如何在node.js中或者java中给wav格式的音频编码成sil格式呢
¥15 不小心不正规的开发公司导致不给我们y码，
¥15 我的代码无法在vc++中运行呀，错误很多
¥50 求一个win系统下运行的可自动抓取arm64架构deb安装包和其依赖包的软件。
¥60 fail to initialize keyboard hotkeys through kernel.0000000000

chrome保存网页的一个机制问题求助

2条回答 默认 最新

悬赏问题

2条回答默认最新