一个想要脱发的靓仔 2022-07-23 22:54 采纳率: 85%
浏览 54
已结题

爬虫入门,为什么我爬到的数据和网页的不一样

爬虫入门,为什么我爬到的数据和网页的不一样。
我是先爬取整个页面,再从中截取ul部分,最后在ul的li里获取想要的文字内容
这是dytt的网页源码,这个是ul部分:

img

我的代码如下(用了预加载compile),但想要查看爬取的子页面链接时,却发现和源码显示的不一样:

import requests
import re
domain="https://www.dydytt.net/index2.htm"
#发送请求并解除安全认证
resp=requests.get(domain,verify=False)
#指定字符集(编码)
resp.encoding="gb2312"
obj1=re.compile(r'2022新片精品.*?
    (?P
      .*?)
    ',re.S) obj2=re.compile(r'<a href="(?P<href>.*?)"',re.S) result1=obj1.finditer(resp.text) for it in reg1: ul = it.group("ul") #提取子页面链接 reg2=obj2.finditer(ul) for i in reg2: print(i.group("href").strip("/"))
  • 写回答

2条回答 默认 最新

  • 快乐小土狗 2022-07-23 23:14
    关注

    img


    还是显示有问题啊
    然后我改了一下打印了看

    img


    这不是一样的嘛

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月18日
  • 已采纳回答 8月10日
  • 创建了问题 7月23日

悬赏问题

  • ¥15 docker部署Mongodb后输入命令报错?
  • ¥15 将下列流程图转变成python程序代码
  • ¥15 我需要全国每个城市的最新小区名字等数据。
  • ¥15 开发一个小区生态的小程序
  • ¥15 如何解决Excel中dependent dropdown list 的问题
  • ¥15 MddBootstrapInitialize2失败
  • ¥15 LCD Flicker
  • ¥15 esp32在micropython环境下使用ssl/tls连接mqtt服务器出现以下报错Connected on 192.168.154.223发生意外错误: 5无法连接到 MQTT 代理,如何解决?
  • ¥15 关于#genesiscsheel#的问题,如何解决?
  • ¥15 Android aidl for hal