爬虫入门，为什么我爬到的数据和网页的不一样

爬虫入门，为什么我爬到的数据和网页的不一样。
我是先爬取整个页面，再从中截取ul部分，最后在ul的li里获取想要的文字内容
这是dytt的网页源码，这个是ul部分：

我的代码如下(用了预加载compile)，但想要查看爬取的子页面链接时，却发现和源码显示的不一样：

import requests
import re
domain="https://www.dydytt.net/index2.htm"
#发送请求并解除安全认证
resp=requests.get(domain,verify=False)
#指定字符集(编码)
resp.encoding="gb2312"
obj1=re.compile(r'2022新片精品.*?(?P.*?)',re.S)
obj2=re.compile(r'<a href="(?P<href>.*?)"',re.S)
result1=obj1.finditer(resp.text)
for it in reg1:
    ul = it.group("ul")
    #提取子页面链接
    reg2=obj2.finditer(ul)
    for i in reg2:
        print(i.group("href").strip("/"))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
快乐小土狗 2022-07-23 23:14
关注
还是显示有问题啊
然后我改了一下打印了看

这不是一样的嘛

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬虫入门，为什么我爬到的数据和网页的不一样 python 爬虫
2022-07-23 22:54

回答 2 已采纳还是显示有问题啊然后我改了一下打印了看这不是一样的嘛
爬虫爬到的数据和看见的数据不一样 python 爬虫
2022-02-21 22:34

回答 1 已采纳在xpath里把tr[3]改成tr就可以了，因为网页里的表格奇数行和偶数行不是一个tr下的元素
抓包数据和爬虫数据不一样 python 爬虫
2022-09-16 18:03

回答 1 已采纳补全headers和cookies相关参数再去请求就好了
2021-11-03大数据学习日志——数据埋点+网络爬虫——后端开发入门
2021-11-03 19:35

王络不稳定的博客将列表套字典数据转换为 JSON 字符串返回 json_str = json.dumps(data_list, ensure_ascii=False) return json_str 1.6.3 处理跨域请求问题(了解) 考虑到安全性，浏览器是不允许跨域(不同地址)访问的。默认只有IP和...
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
为什么我的python爬虫有一些非动态的数据爬不到？ python 爬虫
2023-01-17 16:42

回答 8 已采纳有None不是很正常吗你看页面上有没有啊。还有不知道你想获取的事那个页面的数据
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python 爬虫从入门到入坑全系列教程（详细教程 + 各种实战）
2022-09-20 16:26

AudiA6LV6的博客自动地抓取万维网信息的程序或者脚本另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫两大特征能按作者要求下载数据或者内容能自动在网络上流窜三大步骤下载网页提取正确的信息根据一定规则自动跳到另外...
python爬虫问题，在网页代码找不到自己想要的数据 python 爬虫
2022-02-24 11:15

回答 2 已采纳那个网站啊.你看下是不是写在接口中.F12开发者模式.选择XHR看下
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
python爬虫数据与网页不一致 python 爬虫
2022-08-16 16:50

回答 2 已采纳 rows是行数，你改成10000，一次性爬完，不用翻页。
Python爬虫入门(一)（适合初学者）
2022-04-01 21:40

一顿魏不饱&杏任小饼干的博客 Python爬虫入门(一) （超适合小白）
为什么爬虫爬到了东西但解析不了 python 有问必答爬虫
2022-01-08 21:28

回答 2 已采纳网址数据是动态加载的，requests无法获取，需要找到数据接口来请求。数据接口网址：https://www.epo.org/search/api/v2/search需要post请求，发送参数
入门到专业程序员都在做Python爬虫，知道为什么吗？
2019-09-18 17:00

Python编程KK的博客无论是从入门级选手到专业级选手都在做的爬虫，还是Web 程序开发、桌面程序开发还是科学计算、图像处理，Python都可以胜任。或许是因为这种万能属性，周围好更多的小伙伴都开始学习Python。 Python 现在到底有多热...
爬虫数据采集基础
2022-06-28 23:20

m0_46427459的博客还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及会话（Session）和 Cookies 的相关知识。无状态HTTP 会话会话，其本来的含义是指有始有终的一系列动作 / ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月23日

悬赏问题

¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题
¥15 目标检测项目无法读取视频
¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
¥100 求采集电商背景音乐的方法
¥15 数学建模竞赛求指导帮助

爬虫入门，为什么我爬到的数据和网页的不一样

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新