如何使用SQL和Python筛选不符合研究领域的论文？

标题： 如何优化大模型API调用实现论文研究领域验证？（Python/SQL/deepseek）

问题背景：
我正在处理一个知识图谱数据库（MySQL 8.0），包含两个数据表：

research_field：存储900+个人工智能研究领域（如"深度学习"）
ai_dissertation：存储数千篇论文，包含标题(title)和摘要(abstract)字段，但无研究领域字段

环境信息：

Python 3.11
MySQL默认端口

需求：
筛选出研究领域不在research_field表中的论文，并将这些异常论文的标题输出到txt文件。
不清楚ai_dissertation表中论文的研究领域是否符合research_field表里900个研究领域的其中一个，要筛选出不符合的论文。
1、请问当前的方案1好还是方案2好？这两个方案还可以如何优化？
2、请问还有其他解决需求的方法吗？核心期望是API调用不要过多

当前方案（痛点：API调用过多）：

现有实现的核心逻辑（基于deepseek API）
def 验证论文(摘要, 领域列表):

领域提取+本地比对
- 每个摘要调用1次API提取领域
- 本地进行简单字符串匹配
直接验证
- 每个摘要调用1次API（但需传入900个领域）
- Token消耗更高
  
  响应 = 提问"该摘要是否属于以下领域？{领域列表}"

关键约束：

预算限制：需将月API成本控制在500元以内
准确率：要求≥85%
语言特性：主要处理中文摘要

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-05-10 12:47
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

解决方案

使用 SQL 和 Python 可以实现论文研究领域验证。下面是一个示例解决方案：

首先，使用 SQL 查询获取论文的领域信息：

SELECT * FROM research_field WHERE id IN (SELECT field_id FROM research_paper WHERE title LIKE '%your_paper_title%');

这将获取论文的领域信息，假设论文的标题包含 your_paper_title。

然后，使用 Python 和 deepseek 库来验证论文是否符合研究领域。首先，安装 deepseek 库：

pip install deepseek

接下来，使用 Python 代码来验证论文：

import deepseek # 获取论文的领域信息 field_info = pd.read_sql_query("SELECT * FROM research_field WHERE id IN (SELECT field_id FROM research_paper WHERE title LIKE '%your_paper_title%')", conn) # 使用 deepseek 库来验证论文是否符合研究领域 paper_info = pd.read_sql_query("SELECT * FROM research_paper WHERE title LIKE '%your_paper_title%'", conn) for paper in paper_info: field_id = paper['field_id'] field_name = field_info[field_info['id'] == field_id]['name'].values[0] if field_name not in ['your_research_field1', 'your_research_field2', ...]: print(f"论文 '{paper['title']}' 不符合研究领域 '{field_name}'")

这将验证论文是否符合研究领域，如果不符合，则输出论文的标题和不符合的领域名称。

代码解释

使用 SQL 查询获取论文的领域信息。
使用 deepseek 库来验证论文是否符合研究领域。
遍历论文信息，获取论文的领域 ID 和名称。
如果论文的领域名称不在指定的研究领域列表中，则输出论文的标题和不符合的领域名称。

重要提示

在上面的代码中，需要将 your_paper_title 和 your_research_field1, your_research_field2, ... 替换为实际的论文标题和研究领域名称。
在实际应用中，需要根据具体的论文和研究领域信息来调整代码。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Excel VBA和Python语言在森林生态气象和水文工作中的应用与比较.pdf
2021-06-28 17:33

Excel VBA（Visual Basic for Applications）和Python是目前在这一领域中应用最为广泛的两种编程语言。它们各自的特点决定了在处理不同规模和类型数据时所表现出来的适用性。首先，Excel VBA是微软公司开发的应用...
VB+SQL宿舍管理系统(论文+源代码).zip
2024-03-08 11:40

5. Python、STM32、C语言、小程序和心梓知识的标签可能意味着这个资源包还涵盖了其他领域的知识，如Python编程、嵌入式系统开发、微控制器编程、移动应用开发等，这些可以作为扩展学习的方向。总之，这个【VB+SQL...
Python Pandas 数据筛选的多种方式
2025-06-08 09:26

AI Python 编程的博客本文的目的是全面介绍 Pandas 中数据筛选的多种方式，包括基本的布尔索引、使用query方法、按标签和位置筛选等，涵盖了从简单到复杂的各种筛选场景。本文将首先介绍 Pandas 中数据筛选的核心概念和相关联系，然后...
学术研究：Python 爬取 CNKI 论文数据（选题分析）
2025-11-13 23:46

python 爬虫工程师的博客摘要：本文介绍利用Python爬取中国知网(CNKI)论文数据并进行选题分析的方法。首先通过Selenium模拟浏览器操作获取"人工智能在医学影像应用"主题的论文数据，包括标题、作者、发表时间等核心信息。随后对...
机器学习之争：Python vs R，谁更胜一筹？
2024-08-04 14:59

AI与编程之窗的博客总体而言，Python由于其通用性和强大的库支持，更适合作为机器学习的首选语言，而R则在专业数据分析领域独具优势。从学习曲线来看，Python对编程初学者更为友好，适合希望快速上手并应用于广泛编程任务的用户，而R则...
python毕设高校固定资产管理系统研究与实现0gcwc程序+论文
2024-12-10 16:04

宇澄学长-毕设的博客然而，传统的人工管理方式存在信息更新不及时、数据不准确、流程繁琐等问题，难以满足现代高校管理的需求。因此，开发一套高效、便捷的高校固定资产管理系统显得尤为重要。该系统旨在通过信息化手段，实现固定资产的...
python毕设应急领域专家信息管理系统ci4sf程序+论文
2024-12-23 11:30

雙全学姐毕设的博客然而，应急响应的效果很大程度上依赖于应急领域专家的专业知识、经验和快速响应能力。为了更有效地整合和管理这些宝贵的专家资源，开发一套应急领域专家信息管理系统显得尤为重要。该系统旨在构建一个全面、高效、...
python毕设某校机器学习题库和组卷系统的设计和实现4101y程序+论文
2024-11-24 22:38

召楠计算机毕设程序的博客随着人工智能技术的迅猛发展，机器学习已成为当代信息技术领域的热门研究方向。在教育领域，机器学习不仅革新了教学方式，还为学生提供了更加丰富和个性化的学习资源。特别是在题库建设和组卷方面，传统的人工方式已...
基于python的网上订餐系统论文模板
2021-10-06 19:59

青柠程序员的博客本论文主要论述了如何使用python语言开发一个网上订餐系统，本系统将严格按照软件开发流程进行各个阶段的工作，采用B/S架构，面向对象编程思想进行项目开发。在引言中，作者将论述网上订餐系统的当前背景以及系统...
Python开发从入门到精通(上) - 基础编程
2025-01-16 09:39

莲华君的博客本书致力于让读者通过阅读、学习及实践成为Python大师。...记住Python是一个强大且灵活的工具，读者朋友们请永远保持好奇心，继续探索数据科学、人工智能、Web开发等领域，让Python陪伴你走得更远！
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月10日

如何使用SQL和Python筛选不符合研究领域的论文？

响应 = 提问"该摘要是否属于以下领域？{领域列表}"

5条回答 默认 最新

解决方案

代码解释

重要提示

问题事件

5条回答默认最新