关于#python#的爬虫Xpath定位问题，请各位专家解答！

最近在自学Python爬虫在获取一个页面里的弹窗详情时遇到了问题：

all_data = []
    for page in range(1, 4 + 1):  # 替换总页数为实际的页码数量
        print(f"正在提取第{page}页数据...")
        flip_page(driver, page)  # 翻页到指定页码
        try:
            # 等待表格行加载完成
            rows = WebDriverWait(driver, 10).until(
                EC.visibility_of_all_elements_located(
                    (By.XPATH, '//*[@id="tscVeh"]/tbody/tr')
                )
            )
            # 如果有行存在，则进行处理
            if rows:
                for index, row in enumerate(rows, start=1):
                    # 假设双击的元素位于每行的第一个td中，您可以根据实际情况调整XPath
                    double_click_element_xpath = (
                        f'//*[@id="tscVeh"]/tbody/tr[{index}]/td[1]'
                    )
                    double_click_element = WebDriverWait(driver, 10).until(
                        EC.element_to_be_clickable(
                            (By.XPATH, double_click_element_xpath)
                        )
                    )
                    # 执行双击操作
                    action = ActionChains(driver)
                    action.move_to_element(
                        double_click_element
                    ).double_click().perform()
 
                    try:
                        # 假设行是通过特定的元素或类来定义的，例如<div>或<tr>，并且包含“未处理”字样
                        unhandled_rows = WebDriverWait(driver, 10).until(
                            EC.presence_of_all_elements_located(
                                (
                                    By.XPATH,
                                    "//span[contains(text(), '未处理') and contains(@style, 'color: red')]",
                                )
                            )
                        )
                        for row in unhandled_rows:
                            # 找到span所在的tr元素
                            tr_element = row.find_element(By.XPATH, "..").find_element(
                                By.XPATH, ".."
                            )  # span -> td -> tr
                            view_details_button = tr_element.find_element(
                                By.XPATH, ".//td[last()]/a[@class='view']"
                            )
                            # 点击“查看详情”按钮
                            view_details_button.click()
                            wait = WebDriverWait(driver, 10)
                            right_div = wait.until(
                                EC.visibility_of_element_located(
                                    (
                                        By.XPATH,
                                        "//*[@id='info']/div",
                                    )
                                )
                            )
 
                            title2_elements = right_div.find_elements(
                                By.XPATH, "//*[@class='info']/div"
                            )
                            for element in title2_elements:
                                row2_data = {}
                                for col_num in range(1, 9):  # 假设你需要前8列的数据
                                    xpath = f"//*[@id='info']/div[{col_num}]/span[2]"
                                    # 使用显式等待等待元素可见
                                    try:
                                        ch_element = wait.until(
                                            EC.visibility_of_element_located(
                                                (By.XPATH, xpath)
                                            )
                                        )
                                        row2_data[f"Column{col_num}"] = ch_element.text
                                        print(ch_element.text)
                                    except TimeoutException:
                                        print(f"Timed out waiting for element {xpath}")
                                        continue  # 如果超时，则跳过当前循环的剩余部分，继续下一个循环
                                    row2_data[f"Column{col_num}"] = ch_element.text
                                    print(ch_element.text)
 
                                all_data.append(row2_data)
                                close_button = WebDriverWait(driver, 10).until(
                                    EC.element_to_be_clickable(
                                        (By.CSS_SELECTOR, ".aui_close")
                                    )
                                )
                            driver.execute_script("arguments[0].click();", close_button)
                            print("已关闭弹窗")
                            df = pd.DataFrame(all_data)
                            print(df)
                        # 等待返回按钮变得可点击
                        back_button = WebDriverWait(driver, 10).until(
                            EC.element_to_be_clickable(
                                (
                                    By.XPATH,
                                    "//*[@id='mem-content']/div[1]/div/h3/a",
                                )
                            )
                        )
                        # 点击返回按钮
                        back_button.click()
                        print("已点击返回按钮，回到A页面处理下一条数据")
                        # print("all_data", all_data)
                    except TimeoutException:
                        # 等待返回按钮变得可点击
                        back_button = WebDriverWait(driver, 10).until(
                            EC.element_to_be_clickable(
                                (By.XPATH, "//*[@id='mem-content']/div[1]/div/h3/a")
                            )
                        )
                        # 点击返回按钮
                        back_button.click()
                        print("已点击返回按钮，回到A页面处理下一条数据")
                        print("未找到包含'未处理'字样的行返回A页面")
        except TimeoutException:
            print("未找到返回按钮，无法回到Aaa页面")
    sleep(3)
    print(f"第{page}页数据提取完成。")
 
    df.to_excel("SJSD违章明细2.xlsx", index=False, engine="openpyxl")
    print("所有数据提取完成并已保存到Excel文件")
    driver.quit()

整个代码运行过程中以下代码块执行过程中输出了重复信息

 # 点击“查看详情”按钮
                            view_details_button.click()
                            wait = WebDriverWait(driver, 10)
                            right_div = wait.until(
                                EC.visibility_of_element_located(
                                    (
                                        By.XPATH,
                                        "//*[@id='info']/div",
                                    )
                                )
                            )
 
                            title2_elements = right_div.find_elements(
                                By.XPATH, "//*[@class='info']/div"
                            )
                            for element in title2_elements:
                                row2_data = {}
                                for col_num in range(1, 9):  # 假设你需要前8列的数据
                                    xpath = f"//*[@id='info']/div[{col_num}]/span[2]"
                                    # 使用显式等待等待元素可见
                                    try:
                                        ch_element = wait.until(
                                            EC.visibility_of_element_located(
                                                (By.XPATH, xpath)
                                            )
                                        )
                                        row2_data[f"Column{col_num}"] = ch_element.text
                                        print(ch_element.text)
                                    except TimeoutException:
                                        print(f"Timed out waiting for element {xpath}")
                                        continue  # 如果超时，则跳过当前循环的剩余部分，继续下一个循环
                                    row2_data[f"Column{col_num}"] = ch_element.text
                                    print(ch_element.text)
 
                                all_data.append(row2_data)
                                close_button = WebDriverWait(driver, 10).until(
                                    EC.element_to_be_clickable(
                                        (By.CSS_SELECTOR, ".aui_close")
                                    )
                                )
                            driver.execute_script("arguments[0].click();", close_button)
                            print("已关闭弹窗")
                            df = pd.DataFrame(all_data)
                            print(df)

print(df)输出以下内容单条内容重复了15次但我只希望成功获取其中一条内容就可以了

Column1  Column2           Column3  ...       Column6 Column7 Column8
0 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
1 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
2 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
3 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
4 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
5 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
6 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
7 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
8 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
9 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
10 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
11 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
12 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
13 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
14 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50
15 获取值1 小型 2024-03-23 21:51 ... 获取值6 3 50

以下是要获取内容页面的结构

<div class="right" style="float: left;width: 50%">
                <div style="font-size: 14px;font-weight: 600">信息详情</div>
                <div class="info" id="info" style="margin-top: 20px">
                    <div>
                        <span class="title"></span>
                        <span class="title2 hphm">获取值1：</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 hpzlStr">小型</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 wfsj">2024-03-23 21:51</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 wfdz">获取值4</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 wfms">获取值5</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 cjjgmc">获取值6</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 wfjfs">3</span>
                    </div>
                    <div>
                        <span class="title"></span>
                        <span class="title2 fkje">50</span>
                    </div>
                </div>
            </div>
        </div>
    </div>

请各位python专家们帮忙看看总感觉自己找的这几个Xpath有问题但又不知道怎么解决

By.XPATH, "//*[@id='info']/div",
By.XPATH, "//*[@class='info']/div"
xpath = f"//*[@id='info']/div[{col_num}]/span[2]"

是不是有更好的定位方式去解决！！
最后跑完整个代码将数据保存到XLSX表中的内容也是不全的总共有40多组信息但表格里只有8组*15次的重复也不知道到底是哪里出现了问题

后来尝试了修改代码都是没有得到想要的结果我自己再次修改可还是未得到想要的结果再测试输出时所有 row_data all_data 都会重复输出8行不知道什么原因感觉是title2_elements 这里的xpath写错了但又不知道怎么改求解！以下是修改后的代码

if rowsB:
                            for index, rowB in enumerate(rowsB, start=1):
                                view_click_element_xpath = (
                                    f'//*[@id="applyList"]/tbody/tr[{index}]/td[9]/a'
                                )
                                view_click_element = WebDriverWait(driver, 10).until(
                                    EC.element_to_be_clickable(
                                        (By.XPATH, view_click_element_xpath)
                                    )
                                )
                                view_click_element.click()  # 点击查看详情按钮
                                # 等待弹窗加载完成
                                popup_element = WebDriverWait(driver, 10).until(
                                    EC.presence_of_element_located(
                                        (
                                            By.XPATH,
                                            "//*[@id='info']",
                                        )
                                    )
                                )
                                title2_elements = popup_element.find_elements(
                                    By.XPATH, "//*[@class='info']/div/span[2]"
                                )
                                for element in title2_elements:
                                    row_data = {}
                                    for col_num in range(1, 9):  # 假设你需要前8列的数据
                                        xpath = (
                                            f"//*[@id='info']/div[{col_num}]/span[2]"
                                        )
                                        print("col_num:", col_num)
                                        # 使用显式等待等待元素可见
                                        try:
                                            ch_element = WebDriverWait(
                                                driver, 10
                                            ).until(
                                                EC.visibility_of_element_located(
                                                    (By.XPATH, xpath)
                                                )
                                            )
                                            row_data[f"Column{col_num}"] = (
                                                ch_element.text
                                            )
                                            print("ch_element.text:", ch_element.text)
                                        except TimeoutException:
                                            row_data[f"Column{col_num}"] = ""
                                            print(
                                                f"Timed out waiting for element {xpath}"
                                            )
                                    all_data.append(row_data)
                                    print("row_data:", row_data)
                                close_button = WebDriverWait(driver, 10).until(
                                    EC.element_to_be_clickable(
                                        (By.XPATH, "//*[@class='aui_buttons']")
                                    )
                                )
                                close_button.click()
                                print("已关闭弹窗")
                                print("处理弹窗内的数据all_data:", all_data)
                                df = pd.DataFrame(all_data)
                                print(df)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-16 11:43
关注
引自免费微信小程序：皆我百晓生

我明白你在使用Python爬虫时遇到的问题，似乎在获取弹窗详情时，由于XPath选择器可能导致了重复数据的获取。针对你的代码，让我们逐段分析并提供优化的XPath选择器：

首先，确认view_details_button和right_div的选择器是否正确。你的目标是找到<div class="info">下的所有标题和对应的值。可以尝试这个XPath表达式：

right_div_xpath = '//*[@id="info"]/div[contains(@class, "info")]' title2_elements_xpath = right_div_xpath + "//*[contains(@class, 'title2')]"

这样可以确保找到info div下的所有title2元素。

当获取title2_elements后，遍历这些元素时，可以去掉内部的for element in title2_elements:循环，因为你已经在同一个循环里处理了每个元素的列数据。只需更新row_data的构建方式：

row_data = {} for col_num in range(1, 9): # 假设你需要前8列的数据 xpath = f"{right_div_xpath}/div[{col_num}]/span[2]" ch_element = wait.until(EC.visibility_of_element_located((By.XPATH, xpath))) row_data[f"Column{col_num}"] = ch_element.text

在添加row_data到all_data之前，检查row_data是否已经存在于all_data中，避免重复：

if not any(row_data == data for data in all_data): all_data.append(row_data)

最后，关于表格保存的问题，如果你确定已经获取了所有数据但只保存了部分，可能是因为数据处理的逻辑问题。确保在处理完所有弹窗后，再将all_data转换为DataFrame并保存：

df = pd.DataFrame(all_data) df.to_excel("SJSD违章明细2.xlsx", index=False, engine="openpyxl")

整合以上修改，你的代码片段如下：

if rows: for index, row in enumerate(rows, start=1): ... title2_elements = popup_element.find_elements(By.XPATH, title2_elements_xpath) for title2_element in title2_elements: row_data = {} for col_num in range(1, 9): xpath = f"{right_div_xpath}/div[{col_num}]/span[2]" ch_element = wait.until(EC.visibility_of_element_located((By.XPATH, xpath))) row_data[f"Column{col_num}"] = ch_element.text if not any(row_data == data for data in all_data): all_data.append(row_data) close_button.click() print("已关闭弹窗") print("处理弹窗内的数据all_data:", all_data) df = pd.DataFrame(all_data) print(df) df.to_excel("SJSD违章明细2.xlsx", index=False, engine="openpyxl") break # 如果一行数据处理完就跳出循环

这应该能帮助你解决重复数据的问题，并确保数据保存完整。如果还有问题，请检查网络请求、页面结构的变化以及是否有其他并发问题影响数据提取。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python中XPath爬虫实例详细解析
2025-07-15 14:36

Python是当今非常流行的一种编程语言，因其简洁的语法和强大的功能库而受到广大开发者的喜爱。在数据抓取和网络爬虫领域，Python同样拥有众多的库可供选择。其中，使用XPath技术进行网页内容的提取是网络爬虫开发中...
Python爬虫实战之xpath解析
2022-08-01 19:59

阿浩(￣▽￣)的博客 XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。
Python 爬虫实战：XPath 语法详解，高效定位 XML/HTML 节点
2025-10-17 23:48

python 爬虫工程师的博客本文系统介绍了XPath技术在网页数据解析中的应用，主要包含以下...文章强调XPath在复杂网页解析中的优势，适合需要精准定位和高效提取数据的爬虫开发场景，同时建议根据实际需求选择合适的解析工具或组合使用多种技术
python爬虫实战开发之bs4应用和xpath结合实战操作.zip
2024-11-15 13:45

在Python爬虫中，XPath配合像lxml或xml.etree.ElementTree这样的库使用，可以快速定位到特定的元素。XPath的表达式非常强大，能够进行复杂的查询操作，但相对于BeautifulSoup，它的学习曲线可能更陡峭一些，特别是在...
基于Python的xpath与request库封装的小说爬虫设计源码
2024-10-01 17:54

Python作为一门非常适合初学者的编程语言，因其简洁易读的语法、丰富的库支持，成为了网络爬虫开发的首选语言之一。本项目“基于Python的xpath与request库封装的小说爬虫设计源码”是一个专为爬取小说数据而设计的...
python爬虫之xpath入门
2024-03-19 23:24

hjc_042043的博客 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候，选中时，选中的标签会添加属性class=“xh-highlight”
基于Python的网络爬虫的毕业设计
2022-02-20 11:41

首先，我们关注的是Python这一编程语言，它是网络爬虫开发的首选语言，因为其语法简洁、库丰富且适合快速开发。在Python中，最常用于网络爬虫开发的库有`requests`和`BeautifulSoup`。`requests`库用于发送HTTP...
【Python】爬虫之xpath的基本使用（文末附带整理好的籽料）
2024-10-24 16:13

宇宙大豹发的博客一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。参照二、安装 pip3 ...
python定位xpath 节点位置的方法
2020-09-18 18:07

在信息技术中，Python是一种广泛使用的高级编程语言，它支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。Python因其易读性和简洁的语法而受到开发者的青睐。在本文中，我们将深入探讨如何使用Python...
Python使用xpath爬取网站数据
2025-04-03 17:28

而Python的数据爬取主要依赖于第三方库，比如requests用于发送网络请求，BeautifulSoup和lxml用于解析网页内容，而XPath就是其中的一种选择器语言，用于从HTML或XML文档中选取节点。接下来，我们具体探讨XPath的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月16日

关于#python#的爬虫Xpath定位问题，请各位专家解答！

6条回答 默认 最新

问题事件

6条回答默认最新