#_*_coding:骆驼翔子-8_*_ 2022-06-24 19:43 采纳率: 94.7%
浏览 326
已结题

python爬虫html获取不全

最近发现了一个网站,想用python爬虫爬取其中的图片
https://www.aigei.com/view/70774.html?page=1

首先使用requests库试了一下

import requests
import re

url = r"https://www.aigei.com/view/70774.html?page=2"
print(url)
headers =  (太长了,这里就不放了,其中有user-agent  , cookie)

html = requests.get(url, headers=headers).content.decode("utf-8")
print(html)

但是发现没有想要的内容

img

出现了很多的空行, 用selenium试了一下, 依然不行

from selenium import webdriver
import re

browser = webdriver.Chrome()
browser.get(r"https://www.aigei.com/view/70774.html?page=2")

html = browser.page_source
print(html)

browser.quit()

本人是初学者,希望各位达人帮忙解决

  • 写回答

1条回答 默认 最新

  • 虎子8 2022-06-24 21:24
    关注

    其实有的,但是这个网站应该是为了懒加载把url用base64密了一下,然后再动态加载, 其实我下面发的这个就是url 是base64后的url 解码后就是
    https://s1.aigei.com/src/img/png/4a/4a6de48586f54845b67f8d3d874dacf5.png?imageMogr2/auto-orient/thumbnail/!116x115r/gravity/Center/crop/116x115/quality/85/&e=1735488000&token=P7S2Xpzfz11vAkASLTkfHN7Fw-oOZBecqeJaxypL:Po14r-y2O1ya-md6RQhO1iuxTxQ=

    原文
    src='//cdn-sqn.aigei.com/assets/site/img/icon/grey.gif' data-original='aHR0cHM6Ly9zMS5haWdlaS5jb20vc3JjL2ltZy9wbmcvNGEvNGE2ZGU0ODU4NmY1NDg0NWI2N2Y4
    ZDNkODc0ZGFjZjUucG5nP2ltYWdlTW9ncjIvYXV0by1vcmllbnQvdGh1bWJuYWlsLyExMTZ4MTE1
    ci9ncmF2aXR5L0NlbnRlci9jcm9wLzExNngxMTUvcXVhbGl0eS84NS8mZT0xNzM1NDg4MDAwJnRv
    a2VuPVA3UzJYcHpmejExdkFrQVNMVGtmSE43Rnctb09aQmVjcWVKYXh5cEw6UG8xNHIteTJPMXlh
    LW1kNlJRaE8xaXV4VHhRPQ==' data-is-original-base64='true'

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 7月3日
  • 已采纳回答 6月25日
  • 修改了问题 6月24日
  • 创建了问题 6月24日

悬赏问题

  • ¥170 如图所示配置eNSP
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改
  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥15 键盘指令混乱情况下的启动盘系统重装