AI 引用验证与网页抓取自动化系统

问题遇到的现象和发生背景

在做对于模型内容的数据分析时候，遇到了就是需要花费大量的时间和人工，来依次点击模型中引用到的新闻链接，以及对应要去判断是否我们自己发布的文章，然后来做一个针对于我们运营新闻的抓取率和引用率的计算，我现在想的是做一个全部都是自动化的工具，人就只需要像大模型输入对应的问题就能自动捕获网页和判断最终输出的这么一个工具

流程设计

1.捕获网页中大模型思考过程中的抓取到的链接→
2.获取到链接之后，依次自动点击这些被抓取的网页中→
3，点击进去链接之后，判断此文章是否为我们自己发布的（我们自己发布的文章有固定的账号和规定的时间范围以及固定的网站）→
4，判断完成之后，对属于使我们自己发布的文章进行输出（输出的格式要求，以表格的形式输出，表头是序号、文章标题、文章的网页链接）→
5，在大模型的输出内容中，他的下角标会标明自己是引用了哪些文章作为参考的，需要从第四部中抓取到我们的文章中，查看是否有文章被大模型的输出引用，如果被引用了，输出被引用的（输出的格式要求，以表格的形式输出，表头是序号、文章标题、文章的网页链接）→
6，完成好上面的输出之后计算引用率和文章的抓取率
文章的引用率计算公式=在全部抓取的文章中我们自己的文章/全部被抓取的文章100%
文章的抓取率计算公式=大模型回答中引动到的文章/在全部抓取的文章中我们自己的文章100%
最后同时输出

尝试过的解决方法（技术方面）

Selenium 自动爬虫模块，但是技术方面整体的流程还是没有想清楚，想咨询一下各位有没有这方面的建议，以及我想做出来的这个工具成功的可能性大吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2025-10-11 14:52
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
为解决问题，可以设计一个自动化工具，以下是可能的技术方案和流程设计：
使用Python编写一个自动化脚本，结合Selenium库来实现网页的自动化操作。Selenium是一个用于Web应用程序测试的工具，可以模拟用户在浏览器中的操作。
在脚本中，首先需要编写代码来捕获大模型思考过程中抓取到的链接，可以通过页面元素定位的方式来获取链接。
接下来，使用Selenium模拟点击每个链接，进入文章页面后，通过判断文章是否为自己发布的文章。可以编写规则来判断文章是否符合自己发布的标准，比如检查文章的发布时间、发布者等信息。
对于属于自己发布的文章，将文章标题、网页链接等信息存储到一个表格中，可以使用pandas库来创建并导出表格。
遍历大模型输出的引用文章列表，检查是否有引用到自己发布的文章，将被引用的文章标题、网页链接等信息也存储到表格中。
计算引用率和抓取率，根据给定的计算公式计算出结果。示例代码如下：

from selenium import webdriver import pandas as pd # 初始化WebDriver driver = webdriver.Chrome() # 模拟操作，捕获大模型思考过程中的链接 links = ['link1', 'link2', 'link3'] # 这里假设抓取到的链接存储在一个列表中 article_data = [] referenced_data = [] for link in links: driver.get(link) # 判断文章是否为自己发布的文章 if 'my_website' in driver.current_url: # 假设'我的网站'是自己的网站链接的一部分 article_data.append({ '文章标题': driver.find_element_by_css_selector('title').text, '文章链接': driver.current_url }) # 判断文章是否被引用 references = driver.find_elements_by_css_selector('.references') # 假设引用文章列表有一个class为'references'的元素 for ref in references: if 'my_website' in ref.get_attribute('href'): referenced_data.append({ '文章标题': ref.text, '文章链接': ref.get_attribute('href') }) # 将结果存储到表格中 article_df = pd.DataFrame(article_data) article_df.to_csv('articles.csv', index=False) referenced_df = pd.DataFrame(referenced_data) referenced_df.to_csv('referenced_articles.csv', index=False) # 计算引用率和抓取率 quote_rate = len(referenced_data) / len(article_data) * 100 crawl_rate = len(referenced_data) / len(links) * 100 print(f'文章的引用率：{quote_rate}%') print(f'文章的抓取率：{crawl_rate}%') # 关闭浏览器 driver.quit()

以上是一个简单的示例代码，你可以根据实际需求和网页结构进行适当修改。希望以上方案能够帮助你自动化处理数据分析中的问题。祝你顺利完成工具的开发！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

使用Python进行人工智能（AI）网页抓取：综合指南
2026-01-07 13:29

Decodo的博客使用Python进行人工智能（AI）网页抓取通过让模型解释页面内容而不是依赖脆弱的HTML规则来简化提取。...人工智能（AI）网页抓取是使用语言模型而不是刚性解析规则从网页提取结构化数据的一种方法。
基于AI Agent 多智能体协同架构的科研自动化系统设计与实现
2025-10-19 13:59

一键难忘的博客随着人工智能（AI）技术的快速发展，科研自动化（Research Automation）正逐步从概念走向实践。智能体（Agent）凭借其强大的自主学习与任务执行能力，正成为科研工作中不可或缺的工具。从自动文献综述、实验设计优化...
人工智能基于Gemini与AgentBuilder的智能体构建：多模态大模型驱动下的自动化应用系统设计
2025-10-05 18:19

尤其适合从事智能系统设计、自动化流程开发及AI应用落地的专业人士。; 使用场景及目标：①理解Gemini在多模态、推理、代码生成等方面的技术优势及其与竞品的差异；②掌握Agent Builder在CI/CD、自动化测试与团队...
UiBot平台进行知网论文自动化下载机器人设计来了解并学习人工智能技术
2023-12-25 19:32

【UiBot平台进行知网论文自动化下载机器人设计】在当今快速发展的信息技术领域，人工智能（AI）已经...通过这样的设计和实施，我们能够更好地理解人工智能技术在自动化流程中的应用，推动财务共享中心的数字化转型。
Firecrawl教程①：自动化抓取与数据转化，赋能AI应用
2024-12-18 17:15

blues_C的博客尤其是在人工智能（AI）和大语言模型（LLM）的应用不断扩展的背景下，能够将一个网站的内容转化为机器学习模型可以直接使用的格式，已成为一种迫切需求。Firecrawl 是一款 API 服务，支持将整个网站的内容抓取并转换...
零代码构建AI知识库：基于亮数据网页抓取API的维基百科数据自动化采集实战
2025-04-23 19:25

AI大模型-海文的博客网络爬虫，又称为网页蜘蛛、机器人或网络漫游器，是一种自动化脚本或程序，设计用于系统地浏览互联网并提取信息。信息收集：爬虫可以快速地从大量网站中收集数据，帮助用户获得所需的信息。搜索引擎优化：搜索引擎...
自动化智能仓储系统的设计与可行性分析.pdf
2021-09-07 22:57

本文主要围绕自动化智能仓储系统的设计与可行性分析展开，重点讨论了RFID技术、机器人控制技术和多模式智能存储与检索系统的应用。首先，当前的自动化仓储系统虽然已经具备了一定的自动化水平，包括货架、堆垛机、...
AI+RPA：开启智能自动化新时代
2024-09-13 22:58

coding侠客的博客不知大家在日常的购物中，有没有想过，京东，淘宝等平台面对如此庞大大的用户量，618，双十一等活动期间的各种报表是如何快速生成的呢？...本博客将探讨在 AI 时代，RPA 与AI的紧密结合，将会给我们带来哪些机会。
n8n网页抓取自动化完整指南
2025-10-24 15:06

Decodo的博客如果您已厌倦为了获取网页数据而勉强拼凑复杂脚本，那么本n8n网页抓取教程正适合您。您将了解如何使用n8n进行网页抓取、为何它优于自制抓取工具，以及入门所需知识。特别适合希望无痛实现数据提取自动化的开发人员和...
Hyperbrowser MCP：重新定义网页抓取与浏览器自动化的AI驱动工具
2025-07-31 20:49

花生糖@的博客摘要： HyperbrowserMCP是一款融合AI与浏览器技术的创新工具，提供网页抓取、结构化数据提取和自动化操作解决方案。其核心功能包括HTML转JSON、多页面爬取、AI驱动的浏览器自动化（支持OpenAI/Claude）、Bing搜索...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月11日