清欢渡~
2021-03-29 21:25
采纳率: 100%
浏览 49

python爬虫入门请教问题

大佬们,我想问一下,为什么python保存到本地的HTML页面用浏览器打开后很多东西都加载不出来呢,页面的布局也很不一样,下面是我写的保存B站HTML页面

然后爬出来的HTML打开的页面是这个样子的

但是他原页面是这个样子的

这是怎么回事啊,求大佬们指点!!!

  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

4条回答 默认 最新

  • 沐川 2021-03-29 21:35
    已采纳
    1. 你只是爬了个静态的,网页还有很多动态元素;
    2. 有一些是相对路径的,在对方的服务器上,你本地无法加载到。
    3. 你看百度的快照,跟你这种差不多,如果你想完全一样的页面,除了一些小网站,其他基本不可能。
    已采纳该答案
    1 打赏 评论

  • 一个网页中的内容不是都包含在一个html文件中,它要加载一些外部文件,比如图片,视频,css样式表,js代码。
    这些外部文件的加载地址大多用的都是相对地址,相对地址就是从当前html文件存放的位置相对查找。
    你只保存了html文件,那些外部文件没有保存,通过相对地址自然查找不到。
     

    1 打赏 评论
  • 清欢渡~ 2021-03-29 21:39

    那这样会不会影响xpath定位后面的图片的src啊,我后面想爬取图片的时候,用xpath-helper获取图片定位,但是xpath解析出来就是空的,是不是这个原因

    打赏 评论
  • 有问必答小助手 2021-03-30 10:20

    您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~

    如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

    ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

    打赏 评论

相关推荐 更多相似问题