python爬虫html获取不全

最近发现了一个网站，想用python爬虫爬取其中的图片
https://www.aigei.com/view/70774.html?page=1

首先使用requests库试了一下

import requests
import re

url = r"https://www.aigei.com/view/70774.html?page=2"
print(url)
headers =  (太长了，这里就不放了，其中有user-agent  ， cookie）

html = requests.get(url, headers=headers).content.decode("utf-8")
print(html)

但是发现没有想要的内容

出现了很多的空行，用selenium试了一下，依然不行

from selenium import webdriver
import re

browser = webdriver.Chrome()
browser.get(r"https://www.aigei.com/view/70774.html?page=2")

html = browser.page_source
print(html)

browser.quit()

本人是初学者，希望各位达人帮忙解决

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
虎子8 2022-06-24 21:24
关注
其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是
https://s1.aigei.com/src/img/png/4a/4a6de48586f54845b67f8d3d874dacf5.png?imageMogr2/auto-orient/thumbnail/!116x115r/gravity/Center/crop/116x115/quality/85/&e=1735488000&token=P7S2Xpzfz11vAkASLTkfHN7Fw-oOZBecqeJaxypL:Po14r-y2O1ya-md6RQhO1iuxTxQ=

原文
src='//cdn-sqn.aigei.com/assets/site/img/icon/grey.gif' data-original='aHR0cHM6Ly9zMS5haWdlaS5jb20vc3JjL2ltZy9wbmcvNGEvNGE2ZGU0ODU4NmY1NDg0NWI2N2Y4
ZDNkODc0ZGFjZjUucG5nP2ltYWdlTW9ncjIvYXV0by1vcmllbnQvdGh1bWJuYWlsLyExMTZ4MTE1
ci9ncmF2aXR5L0NlbnRlci9jcm9wLzExNngxMTUvcXVhbGl0eS84NS8mZT0xNzM1NDg4MDAwJnRv
a2VuPVA3UzJYcHpmejExdkFrQVNMVGtmSE43Rnctb09aQmVjcWVKYXh5cEw6UG8xNHIteTJPMXlh
LW1kNlJRaE8xaXV4VHhRPQ==' data-is-original-base64='true'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
Python 爬虫基础网络爬虫、数据采集、Python编程、数据处理
2023-08-12 18:32

资源描述：这个资源是关于Python爬虫基础的教程，旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫，从网页中抓取数据，并进行基本的数据处理和存储。内容概要：教程涵盖了Python爬虫的基本概念、...
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
Python爬虫知识点梳理
2023-04-23 20:37

爬虫涉及的技术包括但不限于熟练一门编程语言（这里以 Python 为例） HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫，还需要了解分布式的概念、...
python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客 4.25(第一天) ** 第0关认识爬虫 ** 1、初始爬虫爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。 2、明晰路径 2-1、浏览器工作原理（1）解析数据：当服务器把数据...（1）获取数据：爬虫程序会根据
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
Python爬虫，轻松获取网络数据的利器！
2024-04-09 20:49

python爬虫在当今信息爆炸的时代，如何从海量的网络数据中获取有价值的信息，成为了一个重要的课题。Python爬虫作为一种自动获取网络数据的方法，可以帮助我们快速、高效地从网络上获取所需的信息。 Python爬虫是一...
python爬虫入门——html(xml)语言知识
2022-10-15 17:15

心事寄于秋的博客简单的python爬虫程序能够让用户从一个或多个网页中提取想要的信息。由于我最近需要爬取某个网页资源信息，所以开始入门python爬虫类的相关知识
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月24日

悬赏问题

¥170 如图所示配置eNSP
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥15 键盘指令混乱情况下的启动盘系统重装

python爬虫html获取不全

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新