chrome保存网页的一个机制问题求助

    最近在做一个爬虫，用手机新浪做实验，抓取sina.cn，但是抓取下来后用手机打开发现页面对不齐。后来用chrome打开sina.cn并保存网页，比对自己下载的首页html文件，发现如下奇怪问题：
    chrome保存sina.cn的时候，如果网页类型选择“仅html”，那么跟我抓取的网页内容是一致的，并且下载的html头部标签的结尾处如下：

 <script src="http://mjs.sinaimg.cn/wap/online/home/v7/dest/js/config.js?t=247322956"></script>
<script src="http://mjs.sinaimg.cn/wap/online/public/newLoader/loader.min.js?v=0.3"></script>
<script>load.css();</script>
</head>

    如果网页保存类型为“全部网页”，那么下载的html文件头部标签的结尾处为：

<script src="./手机新浪网1_files/config.js"></script>
<script src="./手机新浪网1_files/loader.min.js"></script>
<script>load.css();</script>
<link href="./手机新浪网1_files/home-b000f9732d.min.css" rel="stylesheet">
<link href="./手机新浪网1_files/main.css" rel="stylesheet" type="text/css">
</head>

    也就是说，采用保存全部网页的时候，html文件头部会多出两个“link”标签，当把这两个标签添加到我抓下来的sina首页html中的时候，就可以正常打开网页了，所以我想请问：
    （1）为什么chrome采用这两种不同的保存方式会使得这个html文件存在差别？
    （2）如果我希望自己抓取的网页能够像chrome采用保存整个网页时的方式一样，即下载下来的网页存在后面的那两个.css文件，该怎么做？
    请懂这方面的达人不吝赐教，十分感谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
斯洛文尼亚旅游 2016-08-18 13:51
关注
全部保存就是将js生成的内容一起保存了，仅html就是查看源代码得到的那些内容，不包含js生成，和服务端xhr对象请求后得到的内容一样

你要获取js动态生成或者加载的内容，需要用webbrowser装载网页后获取所有js解析生成的代码才行，这就是为什么搜索引擎搜索不到js动态加载内容，不利于seo的问题，因为用的是服务器端xhr获取内容，不是webbrowser解析后的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Axure Chrome插件：无缝查看与测试交互原型
2025-07-16 16:53

Waiyuet Fung的博客实时预览功能是Axure Chrome插件最为核心的特性之一。当原型设计在Axure RP中被修改后，插件可以即时同步更新并展现给团队成员，从而大大提高了原型设计的沟通和协作效率。在任何一台安装了Chrome浏览器的计算机上，...
STM32项目复刻制作流程讲解、常见问题解决【合集】【实时更新】
2023-12-04 13:15

DS小龙哥的博客文章记录，STM32项目复刻过程中遇到的各种问题，制作流程讲解、常见问题解决。会实时更新内容。
Cas认证学习笔记（一）---SSO了解
2024-04-22 10:54

CV操作者的博客如果认证中心发现用户尚未登录，则返回登录页面，等待用户登录，如果发现用户已经登录过了，就不会让用户再次登录了，而是会跳转回目标 URL ，并在跳转前生成一个 Token，拼接在目标 URL 的后面，回传给目标应用系统...
深入理解 web 协议(一)- http 包体传输
2024-07-11 03:39

阿诬123的博客开坑这个系列的原因，主要是在大前端学习的过程中遇到了不少跟web协议有关的问题，之前对这一块的了解仅限于用charles抓个包，基本功欠缺。强迫症发作的我决定这一次彻底将web协议搞懂搞透，如果你遇到了和我一样的...
15个AI模拟面试平台和简历修改 / 真人面试平台
2025-06-25 17:02

2301_79306982的博客对15个AI模拟面试平台的详细分析，每个平台都将按照统一的框架进行评估。补充重要的：【1】AMA interview 听说最好，最贵。
谷歌浏览器win_xp版本安装教程与资源
2025-06-29 22:04

kleo3270的博客谷歌浏览器（Google Chrome），自2008年发布以来，凭借其简洁的界面、强大的性能，已成为全球最受欢迎的网络浏览器之一。直到2015年4月之前，谷歌浏览器（Chrome）还为Windows XP提供了官方支持。这意味着XP用户可以...
实现桌面动态壁纸（一）
2022-06-19 20:00

涟幽516的博客我们发现 SHELLDLL_DefView 及其下面的桌面图标窗口成为一个 WorkerW 窗口的子窗口（我们称 WorkerW 1），和第一个 WorkerW 同级但 Z 序位于下方的 WorkerW 窗口（我们称 WorkerW 2），在Win 8至 Win 11上壁纸窗口...
webmagic采集CSDN的Java_WebDevelop页面
2016-05-23 09:53

小扁加油的博客 , jquery Json解析, 求json大神帮我看看这个格式的json如何解析, 求助：jsp+easyUI保存多个同类型model, 关于PWC6033: Unable to compile class for JSP问题的求助, 关于在同一个页面。点击查询按钮，下面会出现表格...
XPath Helper：Chrome扩展程序的网页数据提取利器
2025-08-13 10:39

你好像一条狗啊的博客由于其用户友好的界面和强大的功能，开发者能够高效地进行DOM节点检查、数据抓取以及页面调试等工作。本章节将首先介绍XPath Helper的基本概念，为之后章节中对其核心功能的深入分析打下基础。通过了解XPath Helper...
PHP网页如何实现大文件的秒传与断点续传？
2025-10-22 18:40

2501_90646763的博客作为一名江苏高校的计算机专业大三学生，我的毕业设计选题是，需支持20GB文件传输、文件夹层级结构保留，并覆盖IE8及国产信创浏览器（龙芯/红莲花/奇安信）。经过三周技术攻关，现将关键实现方案与代码片段整理如下...
没有解决我的问题, 去提问

chrome保存网页的一个机制问题求助

2条回答 默认 最新

2条回答默认最新