大器碗盛 2019-05-16 14:54 采纳率: 0%
浏览 561

爬取下来的网页命名为wb_data,为什么wb_data.text与网页源代码内容不一样?

问题如题,我是小白,我看视频里面老师通过‘检查元素’定位元素在源代码中的位置,然后根据代码标签写selector,写代码,一运行就能得到想要的标签元素。我照着模仿,为什么结果为空,我最后发现我的wb_data.text与网页源代码有差别,我就想知道,为什么不一样?为什么视频中老师好像不会有这样的问题?下面是我的过程。
1. 我先打开要爬取的网页
2. 找到目标,点击检查元素定位其在网页代码中的位置
3. 观察,写selector
图片说明

  1. 写代码
from bs4 import BeautifulSoup
import requests

url = 'http://www.gov.cn/'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('div.footer-all > ul.footer-two > li > a')
print(title)

最后结果:

图片说明

希望有大佬帮忙解答下,谢谢。

  • 写回答

1条回答 默认 最新

  • dayday ↑ ↑ 2019-05-16 18:04
    关注

    import requests
    import re
    from lxml import etree

    url = 'http://www.gov.cn/'
    wb_data = requests.get(url)
    title = ''.join(re.findall(r'(.*)',wb_data.content.decode('utf-8')))
    print(title)

    评论

报告相同问题?

悬赏问题

  • ¥50 易语言把MYSQL数据库中的数据添加至组合框
  • ¥20 求数据集和代码#有偿答复
  • ¥15 关于下拉菜单选项关联的问题
  • ¥20 java-OJ-健康体检
  • ¥15 rs485的上拉下拉,不会对a-b<-200mv有影响吗,就是接受时,对判断逻辑0有影响吗
  • ¥15 使用phpstudy在云服务器上搭建个人网站
  • ¥15 应该如何判断含间隙的曲柄摇杆机构,轴与轴承是否发生了碰撞?
  • ¥15 vue3+express部署到nginx
  • ¥20 搭建pt1000三线制高精度测温电路
  • ¥15 使用Jdk8自带的算法,和Jdk11自带的加密结果会一样吗,不一样的话有什么解决方案,Jdk不能升级的情况