大器碗盛 2019-05-16 14:54 采纳率: 0%
浏览 561

爬取下来的网页命名为wb_data,为什么wb_data.text与网页源代码内容不一样?

问题如题,我是小白,我看视频里面老师通过‘检查元素’定位元素在源代码中的位置,然后根据代码标签写selector,写代码,一运行就能得到想要的标签元素。我照着模仿,为什么结果为空,我最后发现我的wb_data.text与网页源代码有差别,我就想知道,为什么不一样?为什么视频中老师好像不会有这样的问题?下面是我的过程。
1. 我先打开要爬取的网页
2. 找到目标,点击检查元素定位其在网页代码中的位置
3. 观察,写selector
图片说明

  1. 写代码
from bs4 import BeautifulSoup
import requests

url = 'http://www.gov.cn/'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('div.footer-all > ul.footer-two > li > a')
print(title)

最后结果:

图片说明

希望有大佬帮忙解答下,谢谢。

  • 写回答

1条回答

  • dayday ↑ ↑ 2019-05-16 18:04
    关注

    import requests
    import re
    from lxml import etree

    url = 'http://www.gov.cn/'
    wb_data = requests.get(url)
    title = ''.join(re.findall(r'(.*)',wb_data.content.decode('utf-8')))
    print(title)

    评论

报告相同问题?

悬赏问题

  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题
  • ¥15 delta降尺度计算的一些细节,有偿
  • ¥15 Arduino红外遥控代码有问题
  • ¥15 数值计算离散正交多项式
  • ¥30 数值计算均差系数编程
  • ¥15 redis-full-check比较 两个集群的数据出错
  • ¥15 Matlab编程问题
  • ¥15 训练的多模态特征融合模型准确度很低怎么办
  • ¥15 kylin启动报错log4j类冲突