【python】网站原html文档和requests+beautifulsoup得到的不一致

网站html部分截图:
网站html截图
想爬取目录下的标题(例如截图中的“影像 论坛撩影”)
在shell中找标签过程如下:

>>> from bs4 import BeautifulSoup
>>> import requests
>>> url='http://www.qikan.com.cn/magdetails/4A07226A-70B4-41A8-B61A-3A45A4E09FEC/2019/1.html'
>>> r=requests.get(url)
>>> r.encoding
'utf-8'
>>> soup=BeautifulSoup(r.text,'html.parser')
>>> soup.find("div",attrs={"class":"catalog2"})
<div class="catalog2">
<strong>目录</strong>
<dl>
<dd><a href="/article/zjzk20190101.html" target="_blank">影像丨</a></dd></dl></div>

发现 div class="catalog2" 标签下的内容和原网站不符
于是将 soup.prettify() 输出到txt中,发现输出如下(截取部分):

 <div class="catalog2">
          <strong>
           目录
          </strong>
          <dl>
           <dd>
            <a href="/article/zjzk20190101.html" target="_blank">
             影像丨
            </a>
           </dd>
          </dl>
         </div>
        </div>
       </div>
      </div>
     </div>
    </div>
   </div>
  </form>
 </body>
</html>
论坛掠影
<dt>
 <span style="display: ">
  <img src="http://img.qikan.com.cn/qkimages/zjzk/zjzk201901/72_72/zjzk20190101-1-s.jpg"/>
 </span>
 第十七届中国经济论坛在人民日报社举行。 2018年12月29日,由人民日报社指导,《中国经济周刊》、中国信通院、工信部工业互联网产业联盟共同主办的第十七届中国经济论坛在人民日报社举行。来自政商学界的460 多位嘉宾出席论坛。 人民日报社副总...
</dt>
<dl>

想询问为什么标签位置与原网页的不一致,应该怎么解决?

3个回答

找到解决方案了!
用BeautifulSoup的时候不要用‘html.parser’来解析,用‘lxml’就可以了
有大佬能解答下这两个的区别么……

代码应该是没问题,理论上应该不会出现不一致的情况,可能是网页html中本身就有不止一个catalog2的标签,或者你没有完全把图中的源代码展开

图片说明
em你是想爬去所有目录嘛...应该获取他们的父标签,然后循环遍历取出子标签

weixin_44607755
沉迷学习和Suzuki 看prettify出的文档,beautifulsoup和原本的标签树已经不一样了,在原html里所有目录标题的父标签就是div class=catalog2,但是爬出来的只有第一个目录标题在catalog2里
10 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
【python】网站原html文档和requests+beautifulsoup得到的不一致
-
Python获取网页所有链接数时,python r.html.links与BeautifulSoup两种方法查找所得链接数不同?
-
【Python】在使用导入的requests_html包时,在pycharm中没有代码提示
-
python 小白 : 关于 curl 转换成 requests 求助
-
python中报TypeError: __init__() missing 2 required positional arguments: 'url' and 'method'
-
关于python网络爬虫网页失效的处理提问
-
python 使用BeautifulSoup 出错
-
这是周杰伦歌名提取训练,请问字典提取那一步首个['data']是哪里来的?
-
mac os下python3的requests库的安装问题
-
python使用pip安装beautifulsoup4总是抛异常安装不了
-
RIDE的testcase edit界面显示异常/空白
-
请问python的requests怎么设置HTTP的代理去访问HTTPS的网站
-
求大佬:python && requests && SSLError("bad handshake: SysCallError(-1, 'Unexpected EOF')")&& https
-
beautifulsoup爬虫问题
-
python3.7 安装requests报错,求大神支招?
-
BeautifulSoup soup.split() TypeError: 'NoneType' object is not callable
-
为什么我用scrapy爬取谷歌应用市场却爬取不到内容?
-
python3.8用pyinstaller3.5导不出exe提示TypeError: an integer is required (got type bytes)
-
求助 python爬虫 requests的get出现10054错误 远程主机强迫关闭了一个现有的连接
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
记一道字节跳动的算法面试题
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 帅地来源公众号 | 苦逼的码农前几天有个朋友去面试字节跳动,面试官问了他一道链表相...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
Python爬取淘宝商品信息
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢。 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除!!! 一、淘宝登录复习 前面我们已经介绍过了如何使用requests库登录淘宝,收到了很多同学的反馈和提问,猪哥感到很欣慰,同时对那些没有及时回复的同学说声抱歉! 顺便再提一下这个登录功能,代码是完全没有问题。...
全球最厉害的 14 位程序员!
来源 | ITWorld 整理自网络全球最厉害的 14 位程序员是谁?今天就让我们一起来了解一下吧,排名不分先后。01. Jon Skeet个人名望:程序技术问答网站 S...
从入门到精通,Java学习路线导航
引言 最近也有很多人来向我"请教",他们大都是一些刚入门的新手,还不了解这个行业,也不知道从何学起,开始的时候非常迷茫,实在是每天回复很多人也很麻烦,所以在这里统一作个回复吧。 Java学习路线 当然,这里我只是说Java学习路线,因为自己就是学Java的,对Java理当很熟悉,对于其它方面,我也不是很了解。 基础阶段 首先是基础阶段,在基础阶段,我们必须掌握Java基础,Mysql数据库,Ora...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
盘点那些被AI换脸、一键“脱”衣所滥用的AI模型
上周作者发布了一篇有关AI换脸的教程,不过令笔者始料未及的是一石激起千层浪,竟然有不少网友留言求所谓一键“脱”衣的教程。 虽然笔者对于技术的滥用深恶痛绝,但技术本身是中性的,并无好坏之分,从我上篇博文中也能看到“AI换脸”的门槛越来越低,目前其应用已经发展到几乎是随便什么人有个教程就能操作的地步了,所以想阻止这些滥用的技术,单靠封杀是不起了什么作用的,所以本文就回归...
五分钟小知识:为什么说 ++i 的效率比 i++ 高?
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 守望先生来源 | 编程珠玑前言不知道你是否听说过 ++i 比 i++ 快的说法,真...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
什么是大公司病(太形象了)
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 南之鱼来源 | 芝麻观点(chinamkt)所谓大企业病,一般都具有机构臃肿、多重...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
工厂模式,从第三方登录说起
现在的很多平台在登陆的时候,下面都会有一排选项,可以选择微信、QQ、微博账号等登陆,这些账号对平台来说都是第三方账号。第三方账号登陆是最近几年流行起来的,第三方账号登录一般都是基于OAuth2.0协议开发的。如果你不了解OAuth2.0协议,可以自行百度,也许会对你看这篇文章有所帮助。 现在由于公司要给平台引入流量,为了降低注册门槛,让更多的人来使用你们的平台,领导决定在你们的平台上接入第三方账号...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
什么是“中台”?
“中台”这个概念,越来越多的在各种技术大会上提及,各大技术公司,纷纷推出自己的“中台”方案,究竟什么是“中台”?他和“前台”、“后台”有何区别?《》,这是我的朋友、前同事...
为什么面向对象糟透了?
又是周末,编程语言“三巨头”Java, Lisp 和C语言在Hello World咖啡馆聚会。服务员送来咖啡的同时还带来了一张今天的报纸, 三人寒暄了几句, C语言翻开了...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
失业42天,我废了
作者:子彧师兄https://www.jianshu.com/p/62590c1339f12019.6.5这天下午,公司以资金困难,亏损较大为理由将我们整个技术部裁掉,我...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
顶级产品经理是如何利用王者荣耀,3步毁掉你的自律。
【老王提示】:本文共 2384 字数,预计阅读时间为 8 Minute。 前言 当今时代,王者荣耀可谓无人不知无人不晓,该产品为其行业巨头,而其产品使用者年龄小则十几岁,大则近百岁。 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 这个现象极为恐怖,甚至有些心酸,本是正处于青春阳光成长中的孩子,应该围绕着学习才对,而不是花费大量时间在娱乐上。不仅是小学生,只要处于...
相关热词 c#该名称在封闭局部范围 c#泛型 排序 c# 测试连接mysql c# 多线程 调用界面值 c# gdi unity c#反射构造带参对象 一起自学c# c#工厂方法 c# 对象属性保存xml u3d用c#写拾取物品