ppoopp6 2025-10-11 14:28 采纳率: 100%
浏览 8
已结题

AI 引用验证与网页抓取自动化系统

问题遇到的现象和发生背景

在做对于模型内容的数据分析时候,遇到了就是需要花费大量的时间和人工,来依次点击模型中引用到的新闻链接,以及对应要去判断是否我们自己发布的文章,然后来做一个针对于我们运营新闻的抓取率和引用率的计算,我现在想的是做一个全部都是自动化的工具,人就只需要像大模型输入对应的问题就能自动捕获网页和判断最终输出的这么一个工具

流程设计

1.捕获网页中大模型思考过程中的抓取到的链接→
2.获取到链接之后,依次自动点击这些被抓取的网页中→
3,点击进去链接之后,判断此文章是否为我们自己发布的(我们自己发布的文章有固定的账号和规定的时间范围以及固定的网站)→
4,判断完成之后,对属于使我们自己发布的文章进行输出(输出的格式要求,以表格的形式输出,表头是序号、文章标题、文章的网页链接)→
5,在大模型的输出内容中,他的下角标会标明自己是引用了哪些文章作为参考的,需要从第四部中抓取到我们的文章中,查看是否有文章被大模型的输出引用,如果被引用了,输出被引用的(输出的格式要求,以表格的形式输出,表头是序号、文章标题、文章的网页链接)→
6,完成好上面的输出之后计算引用率和文章的抓取率
文章的引用率计算公式=在全部抓取的文章中我们自己的文章/全部被抓取的文章100%
文章的抓取率计算公式=大模型回答中引动到的文章/在全部抓取的文章中我们自己的文章
100%
最后同时输出

尝试过的解决方法 (技术方面)

Selenium 自动爬虫模块,但是技术方面整体的流程还是没有想清楚,想咨询一下各位有没有这方面的建议,以及我想做出来的这个工具成功的可能性大吗

  • 写回答

5条回答 默认 最新

  • 码农阿豪@新空间 新星创作者: 前端开发技术领域 2025-10-11 14:52
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    为解决问题,可以设计一个自动化工具,以下是可能的技术方案和流程设计:
    1. 使用Python编写一个自动化脚本,结合Selenium库来实现网页的自动化操作。Selenium是一个用于Web应用程序测试的工具,可以模拟用户在浏览器中的操作。
    2. 在脚本中,首先需要编写代码来捕获大模型思考过程中抓取到的链接,可以通过页面元素定位的方式来获取链接。
    3. 接下来,使用Selenium模拟点击每个链接,进入文章页面后,通过判断文章是否为自己发布的文章。可以编写规则来判断文章是否符合自己发布的标准,比如检查文章的发布时间、发布者等信息。
    4. 对于属于自己发布的文章,将文章标题、网页链接等信息存储到一个表格中,可以使用pandas库来创建并导出表格。
    5. 遍历大模型输出的引用文章列表,检查是否有引用到自己发布的文章,将被引用的文章标题、网页链接等信息也存储到表格中。
    6. 计算引用率和抓取率,根据给定的计算公式计算出结果。 示例代码如下:
    from selenium import webdriver
    import pandas as pd
    # 初始化WebDriver
    driver = webdriver.Chrome()
    # 模拟操作,捕获大模型思考过程中的链接
    links = ['link1', 'link2', 'link3']  # 这里假设抓取到的链接存储在一个列表中
    article_data = []
    referenced_data = []
    for link in links:
        driver.get(link)
        # 判断文章是否为自己发布的文章
        if 'my_website' in driver.current_url:  # 假设'我的网站'是自己的网站链接的一部分
            article_data.append({
                '文章标题': driver.find_element_by_css_selector('title').text,
                '文章链接': driver.current_url
            })
        # 判断文章是否被引用
        references = driver.find_elements_by_css_selector('.references')  # 假设引用文章列表有一个class为'references'的元素
        for ref in references:
            if 'my_website' in ref.get_attribute('href'):
                referenced_data.append({
                    '文章标题': ref.text,
                    '文章链接': ref.get_attribute('href')
                })
    # 将结果存储到表格中
    article_df = pd.DataFrame(article_data)
    article_df.to_csv('articles.csv', index=False)
    referenced_df = pd.DataFrame(referenced_data)
    referenced_df.to_csv('referenced_articles.csv', index=False)
    # 计算引用率和抓取率
    quote_rate = len(referenced_data) / len(article_data) * 100
    crawl_rate = len(referenced_data) / len(links) * 100
    print(f'文章的引用率:{quote_rate}%')
    print(f'文章的抓取率:{crawl_rate}%')
    # 关闭浏览器
    driver.quit()
    

    以上是一个简单的示例代码,你可以根据实际需求和网页结构进行适当修改。希望以上方案能够帮助你自动化处理数据分析中的问题。祝你顺利完成工具的开发!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 10月19日
  • 已采纳回答 10月11日
  • 创建了问题 10月11日