#_*_coding:骆驼翔子-8_*_ 2022-06-24 19:43 采纳率: 90%
浏览 326
已结题

python爬虫html获取不全

最近发现了一个网站,想用python爬虫爬取其中的图片
https://www.aigei.com/view/70774.html?page=1

首先使用requests库试了一下

import requests
import re

url = r"https://www.aigei.com/view/70774.html?page=2"
print(url)
headers =  (太长了,这里就不放了,其中有user-agent  , cookie)

html = requests.get(url, headers=headers).content.decode("utf-8")
print(html)

但是发现没有想要的内容

img

出现了很多的空行, 用selenium试了一下, 依然不行

from selenium import webdriver
import re

browser = webdriver.Chrome()
browser.get(r"https://www.aigei.com/view/70774.html?page=2")

html = browser.page_source
print(html)

browser.quit()

本人是初学者,希望各位达人帮忙解决

  • 写回答

1条回答 默认 最新

  • 虎子8 2022-06-24 21:24
    关注

    其实有的,但是这个网站应该是为了懒加载把url用base64密了一下,然后再动态加载, 其实我下面发的这个就是url 是base64后的url 解码后就是
    https://s1.aigei.com/src/img/png/4a/4a6de48586f54845b67f8d3d874dacf5.png?imageMogr2/auto-orient/thumbnail/!116x115r/gravity/Center/crop/116x115/quality/85/&e=1735488000&token=P7S2Xpzfz11vAkASLTkfHN7Fw-oOZBecqeJaxypL:Po14r-y2O1ya-md6RQhO1iuxTxQ=

    原文
    src='//cdn-sqn.aigei.com/assets/site/img/icon/grey.gif' data-original='aHR0cHM6Ly9zMS5haWdlaS5jb20vc3JjL2ltZy9wbmcvNGEvNGE2ZGU0ODU4NmY1NDg0NWI2N2Y4
    ZDNkODc0ZGFjZjUucG5nP2ltYWdlTW9ncjIvYXV0by1vcmllbnQvdGh1bWJuYWlsLyExMTZ4MTE1
    ci9ncmF2aXR5L0NlbnRlci9jcm9wLzExNngxMTUvcXVhbGl0eS84NS8mZT0xNzM1NDg4MDAwJnRv
    a2VuPVA3UzJYcHpmejExdkFrQVNMVGtmSE43Rnctb09aQmVjcWVKYXh5cEw6UG8xNHIteTJPMXlh
    LW1kNlJRaE8xaXV4VHhRPQ==' data-is-original-base64='true'

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 7月3日
  • 已采纳回答 6月25日
  • 修改了问题 6月24日
  • 创建了问题 6月24日

悬赏问题

  • ¥20 win11修改中文用户名路径
  • ¥15 win2012磁盘空间不足,c盘正常,d盘无法写入
  • ¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
  • ¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
  • ¥15 帮我写一个c++工程
  • ¥30 Eclipse官网打不开,官网首页进不去,显示无法访问此页面,求解决方法
  • ¥15 关于smbclient 库的使用
  • ¥15 微信小程序协议怎么写
  • ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
  • ¥20 怎么用dlib库的算法识别小麦病虫害