Python爬虫遇到的抓取html不全咋回事

为什么我爬取不到div class="Media Label SWsj Media hasVideoButton 16k20"…
div class="position-absolute w-100 h-100"这两行的内容而是只有img src的内容

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师新星创作者: Java技术领域 2024-02-01 19:27
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，主要是为了帮助您快速解决问题，如下回答，您可以参考下，如有问题，评论区留言。
在使用Python爬虫抓取网页内容时，如果发现HTML结构中的某些div标签或者其内的内容没有被正确获取，可能的原因有以下几点：

动态加载内容：现代网页中，特别是复杂的网站或应用程序，经常采用异步加载的方式来显示数据。这意味着部分HTML结构（如你提到的带有特定class属性的div）可能并不是随着原始HTML文档一起加载的，而是通过JavaScript执行后动态生成或从服务器端异步请求得到的。如果你的爬虫仅处理原始HTML响应，那么这部分内容将不会被捕获到。

解决方案：对于这种情况，需要分析网页加载逻辑，识别出异步请求的数据源，或者使用如Selenium、Splash等工具模拟浏览器行为来渲染完整页面后再进行抓取。

分页、滚动加载：一些网页会随着用户滚动页面或点击分页按钮时逐步加载内容。同样，爬虫如果不模拟这种交互，就无法看到这些隐藏或延迟加载的内容。

CSS选择器问题：检查你的CSS选择器是否准确匹配了目标div元素。例如，如果你使用的类名组合有误或类名本身是根据不同的条件动态添加或删除的，那么基于静态类名的选择器可能就无法找到对应的元素。

内容被禁用或隐藏：有时网页开发者可能会通过CSS样式（如"display:none"）将内容隐藏，或者在前端对内容进行了过滤，这也会导致内容看似不存在于原始HTML中。

网络问题或反爬策略：网络连接不稳定可能导致HTML文件不完整，另外，网站可能部署了反爬虫策略，如IP限制、User-Agent检查、验证码、Session验证等，使得爬虫无法正常获取完整的页面内容。

要解决这个问题，请首先检查并确认目标内容是否确实是动态加载的。如果是，则尝试找出API接口或其他方式获取该数据；如果不是，则检查你的爬虫代码和选择器的准确性，并确保网络请求成功获取到了完整的HTML响应。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫 | 以滑雪为例演示大众点评商铺信息采集！
2021-01-08 15:43

pythonlaodi的博客 1.简述 2.字体反爬处理 2.1.... ... 2.2.... 3.... 4.... 4.1.... 4.2....那么今天，咱们就以滑雪为关键字，演示一下如何用Python爬虫采集大众点评的商铺信息吧。在搜索结果以翻页的形式通过 request..
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客 1. 前言 1. 先看一个最简单的爬虫。 import requests ...r = requests.get(url) ...上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常需要做的事情如下： 1)给定的种子 URLs，...
python爬虫教程：爬取酷狗音乐
2019-06-14 15:37

嗨学编程的博客本篇针对爬虫零基础的小白，所以每一步骤我都截图并详细解释了，其实我自己看着都啰嗦，归根到底就是两个步骤的请求，还请大佬绕路勿喷。 1、打开酷狗官网,可以看到搜索框，我们要爬取的数据就是搜索歌曲后，酷狗...
文科生自学Python，完全0基础应该怎样系统学会python_文科python学习
2024-05-03 10:39

2401_84558326的博客为了帮助大家更好的学习Python，小编给大家准备了一份Python学习资料，里面的内容都是适合零基础小白的笔记和资料，不懂编程也能听懂、看懂，需要获取方式：扫描下方即可获取。
小白站长救命指南：H1标签到底怎么用才不被百度当垃圾？
2026-01-17 22:33

DTcode7的博客但反过来，连最基础的“主标题”都写不对，爬虫连你主题是啥都猜不到，更别谈排名。H1写对了，流量不一定暴涨，但至少拿到入场券，后面才轮到你拼内容、拼外链、拼转化。Lighthouse只认“是否在可访问树里”，你把它...
大学生用Python兼职五天狂赚1200，方法经验分享，让你早日实现财富自由
2022-03-22 10:44

python开源精神的博客大学生用Python兼职五天狂赚1200，方法经验分享，让你早日实现财富自由现在的年轻人虽然表面风光，可是却很难攒下钱，这一类人被定义为“隐形贫困者”，原因是什么呢？根据小编的分析，现在人们对生活质量要求普遍...
python+selenium自动化软件测试（第2章）
2019-02-26 10:54

学海无涯乐做舟的博客 2.xpath是一种路径语言，跟上面的定位原理不太一样，首先第一步要先学会用工具查看一个元素的xpath。 3.按照上图的步骤，在FirePath插件里copy对应的xpath地址。 2.2.10 find_element_by_css_...
爬取大众点评页面数据教程，图片文字如何爬取
2020-12-30 14:49

JeffongTan的博客不过正所谓道高一尺，魔高一丈，没有达不到的目的，只有不努力的你。今天接了一个小活，是爬取大众点评各个饭店的名字，地址，分类。我一看，list列表就把这些信息展现出来了，这活挺简单，于是就准备大爬一场。...
Python网络爬虫，我目前只能获取单个文件，为啥？
2023-04-14 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤归来池苑皆依旧，太液芙蓉未央柳。大家好，我是皮皮。一、前言前几天在Python钻石交流群【Jethro Shen】问...
python都学什么啊-那些效率高的人都在偷偷学什么？
2020-11-01 13:24

weixin_37988176的博客去年年底，他在微博上表示，自己将开始学习新的语言Python，作为自己人生的礼物，并且实实在在有坚持学习，还每天打卡#用Python解决100个问题#。咋一看，一个年过半百的房地产大佬，怎么想都和...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月1日

Python爬虫遇到的抓取html不全咋回事

2条回答 默认 最新

问题事件

2条回答默认最新