爬取下来的网页命名为wb_data,为什么wb_data.text与网页源代码内容不一样？

问题如题，我是小白，我看视频里面老师通过‘检查元素’定位元素在源代码中的位置，然后根据代码标签写selector，写代码，一运行就能得到想要的标签元素。我照着模仿，为什么结果为空，我最后发现我的wb_data.text与网页源代码有差别，我就想知道，为什么不一样？为什么视频中老师好像不会有这样的问题？下面是我的过程。
1. 我先打开要爬取的网页
2. 找到目标，点击检查元素定位其在网页代码中的位置
3. 观察，写selector
图片说明

写代码

from bs4 import BeautifulSoup
import requests

url = 'http://www.gov.cn/'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('div.footer-all > ul.footer-two > li > a')
print(title)

最后结果：

图片说明

希望有大佬帮忙解答下，谢谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dayday ↑ ↑ 2019-05-16 18:04
关注
import requests
import re
from lxml import etree

url = 'http://www.gov.cn/'
wb_data = requests.get(url)
title = ''.join(re.findall(r'(.*)',wb_data.content.decode('utf-8')))
print(title)

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
为什么我的python爬取内容只显示最后一个数据，如果可以，希望附改正解决代码！ python 爬虫
2022-08-09 13:39

回答 3 已采纳
wb.sheetnames为什么不显示工作表名称呢？ python
2018-09-10 09:23

回答 1 已采纳您好，你的错误在于导入了Workbook模块。 openpyxl的Workbook模块适用于利用它创建excel文件，而不是读取excel文件。读取excel文件,应该使用load_workbo
python中data.find_all爬取网站为空列表_入门级案例 | 爬取知乎和微博热门数据的代码和思路...
2020-12-20 08:35

weixin_39560245的博客源 / TEDxPY 文 / TED今天来分享下这两天写的入门级的爬取知乎热榜和微博热门数据的代码和思路。网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取...
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
怎么用python手动输入验证码登录呢？以及data里面传什么参数？ python
2021-08-02 16:29

回答 2 已采纳 if first_response == 200:不是响应==200，是响应状态吗==200所以是if first_response.status_code == 200:
请教一下，为什么本地下载的验证码和网页上的不一致 python
2022-09-25 15:26

回答 1 已采纳代码写错了
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
学习pythone爬虫爬取免费简历为什么下载到文件夹的文件不是rar格式 python 有问必答爬虫
2021-12-29 15:40

回答 2 已采纳 resume_path = 'resume/'+ resume_name+".rar"#后缀加上
为啥爬取下来的音乐大小都是1kb，打开说格式错误或者文件已经损坏 python
2021-03-21 16:34

回答 1 已采纳 import requests from bs4 import BeautifulSoup from lxml import etree #用来预处理 #请求数据 url = 'https://m
爬取图片，内容问题， Tieba_spider() takes no arguments python 问答团队
2022-07-16 23:07

回答 1 已采纳给出完整代码大家才好帮你解决问题
python爬取网页的代码_python爬虫入门篇------爬取网页源代码
2020-11-20 18:57

weixin_39869733的博客 python爬虫入门篇------爬取网页源代码2019年6月16日来源: WangF0需求:爬取用户输入网站的源代码,并导入到本地文件中.实现思路:利用python的urllib模块,打开网址读取源代码,然后在本地创建文件,将读取的代码写入....
爬虫KS实战中，最后一行代码K.parms_start_url()要求定义self, 与视频不一样 python 有问必答爬虫
2022-02-21 02:46

回答 2 已采纳将类实例化的时候,类名后面要带括号形如 if __name__ == '__main__': k = KSchengdu_event() k.parms_start_url() se
python爬取网页源代码
2019-11-12 14:43

尔嵘的博客编辑器:vscode 环境：python3.0 代码：新建一个test.py文件 import urllib.request def grab(url): # 打开传入的网址 ... # 读取网页源码内容 data = resp.read() # 输入存储文件名 name = ...
python提取网页中p标签中的内容_用Python进行Web爬取数据
2020-11-20 08:28

weixin_39518002的博客如果这句话听起来很熟悉，那么你并不孤单！希望获得更多数据来训练我们的机器学习模型是一个一直困扰人们的问题。我们无法在数据科学项目中获得可以直接使用的Excel或.csv文件，对吗？那么，如何应对数据匮乏的问题...
Python爬虫爬取静态网页基本方法介绍
2022-12-14 23:13

小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱的博客所以说我们想要爬取这个静态网页我们只需要爬取这个网页的源代码就好了，而我们的网络爬虫就是模仿用户访问浏览器的过程，包括想Web服务器发送HTTP请求，服务器对HTTP请求作出响应并返回网页源代码的过程为帮助开发...
Python_bs4实现网页图片内容爬取
2021-11-09 18:16

Timber.Wang的博客 bs4实现网页图片内容爬取项目信息作者：Timber 指导教师：CQIPC_Bai 操作系统：Windows 11 x64 开发工具：IntelliJ PyCharm 2021.1.3 (Professional Edition) 项目需求对给定天气预报网站进行图片爬取（代码+...
Python 爬取网页数据的两种方法
2021-09-04 21:08

菇毒的博客网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；包含格式很多，例如CSV、Excel等；文件、XML、JSON等等。Python是最常见的网页抓取语言之一；对于任何网络抓取活动，...
没有解决我的问题, 去提问

悬赏问题

¥50 易语言把MYSQL数据库中的数据添加至组合框
¥20 求数据集和代码#有偿答复
¥15 关于下拉菜单选项关联的问题
¥20 java-OJ-健康体检
¥15 rs485的上拉下拉，不会对a-b<-200mv有影响吗，就是接受时，对判断逻辑0有影响吗
¥15 使用phpstudy在云服务器上搭建个人网站
¥15 应该如何判断含间隙的曲柄摇杆机构，轴与轴承是否发生了碰撞？
¥15 vue3+express部署到nginx
¥20 搭建pt1000三线制高精度测温电路
¥15 使用Jdk8自带的算法，和Jdk11自带的加密结果会一样吗，不一样的话有什么解决方案，Jdk不能升级的情况

爬取下来的网页命名为wb_data,为什么wb_data.text与网页源代码内容不一样？

1条回答 默认 最新

悬赏问题

1条回答默认最新