一个想要脱发的靓仔 2022-07-23 22:54 采纳率: 85%
浏览 53
已结题

爬虫入门,为什么我爬到的数据和网页的不一样

爬虫入门,为什么我爬到的数据和网页的不一样。
我是先爬取整个页面,再从中截取ul部分,最后在ul的li里获取想要的文字内容
这是dytt的网页源码,这个是ul部分:

img

我的代码如下(用了预加载compile),但想要查看爬取的子页面链接时,却发现和源码显示的不一样:

import requests
import re
domain="https://www.dydytt.net/index2.htm"
#发送请求并解除安全认证
resp=requests.get(domain,verify=False)
#指定字符集(编码)
resp.encoding="gb2312"
obj1=re.compile(r'2022新片精品.*?
    (?P
      .*?)
    ',re.S) obj2=re.compile(r'<a href="(?P<href>.*?)"',re.S) result1=obj1.finditer(resp.text) for it in reg1: ul = it.group("ul") #提取子页面链接 reg2=obj2.finditer(ul) for i in reg2: print(i.group("href").strip("/"))
  • 写回答

2条回答 默认 最新

  • 快乐小土狗 2022-07-23 23:14
    关注

    img


    还是显示有问题啊
    然后我改了一下打印了看

    img


    这不是一样的嘛

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月18日
  • 已采纳回答 8月10日
  • 创建了问题 7月23日

悬赏问题

  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题
  • ¥15 目标检测项目无法读取视频
  • ¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
  • ¥100 求采集电商背景音乐的方法
  • ¥15 数学建模竞赛求指导帮助