关于怎么优化selenium定位语句？？

本人正在练习通过selenium爬取上市公司年报，试了很久才写出如下效果，但其中的selenium定位语句，实在不知道怎么优化，试了很多次，每次都报错，所以期待有高人可以拨冗指点，谢谢！


```python

import re
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.options import Options
import requests


def main( out_fold ):

    url = "https://gu.qq.com/sh600018/gp/jbnb/"
    file_list = {}

    chrome_options = Options()
    chrome_options.add_argument('--log-level=3')
    chrome_options.add_argument('--disable-gpu') # 禁用gpu
    chrome_options.add_argument('--mute-audio')  # 关闭声音
    driver = webdriver.Chrome(options=chrome_options, executable_path=r"E:/python_work/BrowseDriver/chromedriver.exe")
    driver.implicitly_wait(2) 
    
    driver.get(url)

    ul = driver.find_element_by_xpath("//strong[text()='公告标题']/../..") # 这块怎么一次性取到报告区域呢？？？
    lis = ul.find_elements_by_xpath('./*') # 每行报告记录

    for index, li in enumerate(lis):
        eles =  li.find_elements_by_xpath('./*')
        filename = eles[0].text
        
        file_list[ index ] = { 
                                "filename" : filename , 
                                "href" : eles[0].get_attribute("href") 
                                }

    for k in file_list:  # 遍历存储的 file_list
        if file_list[k]['filename'] =="公告标题":
            continue

        driver.implicitly_wait(2)     
        driver.get( file_list[k]['href'] )

        ele = driver.find_element_by_xpath("//a[@class='yk_on']/../..") # 这块语句怎么优化，始终无法直接读取到iframe？？？？？
        ele1 = ele.find_elements_by_xpath('./*')
        ele2 = ele1[2].find_elements_by_xpath('./*')
        ele3 = ele2[0].find_elements_by_xpath('./*')
        pdf_src = ele3[1].get_attribute("src")

        r = requests.get( pdf_src )
        filename_full_path = out_fold +  file_list[k]['filename'] +  ".pdf"
        with open( filename_full_path , "wb") as f:
            f.write(r.content)
    
    print("over")


if __name__ == '__main__':
    out_fold = 'D:\\data_work\\财报分析模型\财报\\tt\\'
    main( out_fold )

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2022-02-18 20:40

关注

一次定位取到报告区域，使用如下语句：

ul = driver.find_element(By.XPATH,"//div[@class='content']/div/div[2]/ul")

获取pdf网址使用：

ele = driver.find_element(By.XPATH, "//div[@class='content']/div/div[3]/div/iframe").get_attribute('src')

这部分代码进行调整修改即可：

driver.get(url)
ul = driver.find_element(By.XPATH,"//div[@class='content']/div/div[2]/ul")
#print(ul)
lis = ul.find_elements(By.XPATH,'./*') # 每行报告记录

for index, li in enumerate(lis):
    eles =  li.find_elements(By.XPATH,'./*')
    filename = eles[0].text
    
    file_list[ index ] = { 
                            "filename" : filename , 
                            "href" : eles[0].get_attribute("href") 
                            }
print(file_list)
for k in list(file_list.keys())[:2]: 
    if file_list[k]['filename'] =="公告标题":
        continue 
    driver.implicitly_wait(2)     
    driver.get( file_list[k]['href'] )
    ele = driver.find_element(By.XPATH, "//div[@class='content']/div/div[3]/div/iframe").get_attribute('src')        
    r = requests.get(ele,headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.55'})
    filename_full_path = out_fold +  file_list[k]['filename'] +  ".pdf"
    with open( filename_full_path , "wb") as f:
        f.write(r.content)
    time.sleep(1)

如有帮助，请点采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

selenium常用语句和定位
2024-09-19 19:04

AgostoDu的博客 dx.find_element_by_css_selector("#form > span.bg.s_ipt_wr.new-pmd.quickdelete-wrap>input").send_keys("css中上一级定位"小括号是为了把它声明为一个匿名对象，当前的driver就是一个浏览器驱动对象，可用来对...
【学习笔记】python+selenium 四种元素定位方法
2024-10-22 14:44

代码好难写呐(。•́︿•̀。)的博客目录定位方法：一、id+name+class定位方法二、js定位方法（此方法需要自己写）三、css定位方法四、xpath定位方法 1、定位方法： 2、页面上复复制xpath路径方法： 3、xpath定位方法中 //[*@id="kw"]每个符号的...
Python自动化之selenium语句——元素点击、输入、清空和八大元素定位方法
2025-05-26 15:45

漫步云端-r的博客本节讲解元素定位相关知识。
python+selenium 定位隐藏元素
2021-01-22 09:36

m0_50435123的博客定位隐藏要素的原理：页面主要通过“display:none”来控制元素不可见。所以我们需要通过javaScript修改display的值得值为display="block，来实现元素定位的。 HTML代码： <header id="header"> <a href="#...
Python爬虫——selenium_元素定位
2023-08-09 15:05

错过人间飞鸿的博客 selenium_元素定位
如何使用 Python 通过 Selenium 检索标题属性?
2025-01-19 07:02

潮易的博客例如，我们可以让一个AI...在这个测试用例中，我们首先打开一个网页，然后使用assert语句来检查页面的标题是否正确。这是一个基本的示例，但是Selenium也提供了许多其他的方法来操作网页，比如点击按钮、输入文本等。
自学Python 69 Selenium八大元素定位方法(新版BY方法)
2023-06-25 21:04

江南赴艽野的博客在学习使用Selenium对网页元素进行定位时，发现很多教程依然使用老版的元素定位方法，但是对于新版selenium4.0来说，已经弃用了之前的元素定位方法，所以在使用的时候会发现有报错，会被一条横线划掉。所以今天来...
Selenium元素定位方法总结
2022-05-11 12:46

Python for Finance的博客 Selenium可以驱动浏览器完成各种操作，比如模拟点击等。...二、元素定位方法（一）根据id定位（二）根据name定位（三）通过class name定位（四）根据tag定位（五）通过link text定位（六）通过parti
掌握Python Selenium：网页元素自动化定位实战指南
2024-06-04 15:19

jardonwang1的博客 Selenium是一个用于自动化web应用程序测试的工具，它直接运行在浏览器中，就像真实用户在操作一样。这个框架支持多种浏览器（包括Chrome、Firefox、Safari等），并且可以在多种操作系统（Windows、Linux、macOS等）...
Python的selenium语句安装Chromedriver
2025-03-25 22:15

骏333的博客相信这样的友友不在少数，所以，经过亲自测试后，给大家分享一下怎么用Python代码自动化下载对应版本的chromedriver驱动。除非你的chrome更新了，与驱动版本不匹配。这里的example就是你要打开的路径，可以是baidu，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金5元 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月18日

关于怎么优化selenium定位语句？？

2条回答 默认 最新

问题事件

2条回答默认最新