竹扉 2023-04-11 11:50 采纳率: 0%
浏览 26

可以爬取页面,但无法爬取子标签

想问一下大家,我在爬虫的时候发现我能爬取页面,但是页面下的子标签爬取后返回为空是为什么?

希望爬取的标签为:

img

代码:

img

如图a可以输出,结果为:

img

但b输出结果为空:

img

想问一下这是为什么

源代码如下:

from bs4 import BeautifulSoup
import requests
import pandas as pd
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
#测试样例
link_href2="http://ipr.mofcom.gov.cn/hwwq_2/chn_eu_gi/dlbzSearchList.html?name=阿克苏苹果&area_ids=&pro_type_one=&pro_type_two="
# 定制请求,发送请求并返回响应对象和html文档
request2 = requests.get(link_href2)
request2.encoding=request2.apparent_encoding#显示中文
html=request2.text
soup2=BeautifulSoup(html,'html.parser')#解析网页内容,指定BeautifulSoup解析器为'html.parser'
a=soup2.find(attrs={"id":"dataList"})
b=a.find_all('p')
#c=soup2.select('#dataList > ul > li > p:nth-child(2) > span')
#soup2.xpath('//*[@id="dataList"]/ul/li/p[1]/span')
print(a)
  • 写回答

2条回答 默认 最新

  • 阳光宅男xxb 2023-04-25 08:42
    关注

    因为你爬取的结果中的html被注释掉了:

    img


    那个是html中的代码注释符号,导致soup解析不到

    评论

报告相同问题?

问题事件

  • 创建了问题 4月11日

悬赏问题

  • ¥15 Opencv(C++)异常
  • ¥15 VScode上配置C语言环境
  • ¥15 汇编语言没有主程序吗?
  • ¥15 这个函数为什么会爆内存
  • ¥15 无法装系统,grub成了顽固拦路虎
  • ¥15 springboot aop 应用启动异常
  • ¥15 matlab有关债券凸性久期的代码
  • ¥15 lvgl v8.2定时器提前到来
  • ¥15 qtcp 发送数据时偶尔会遇到发送数据失败?用的MSVC编译器(标签-qt|关键词-tcp)
  • ¥15 cam_lidar_calibration报错