标题: 如何优化大模型API调用实现论文研究领域验证?(Python/SQL/deepseek)
问题背景:
我正在处理一个知识图谱数据库(MySQL 8.0),包含两个数据表:
research_field:存储900+个人工智能研究领域(如"深度学习")ai_dissertation:存储数千篇论文,包含标题(title)和摘要(abstract)字段,但无研究领域字段
环境信息:
- Python 3.11
- MySQL默认端口
需求:
筛选出研究领域不在research_field表中的论文,并将这些异常论文的标题输出到txt文件。
不清楚ai_dissertation表中论文的研究领域是否符合research_field表里900个研究领域的其中一个,要筛选出不符合的论文。
1、请问当前的方案1好还是方案2好?这两个方案还可以如何优化?
2、请问还有其他解决需求的方法吗?核心期望是API调用不要过多
当前方案(痛点:API调用过多):
现有实现的核心逻辑(基于deepseek API)
def 验证论文(摘要, 领域列表):
领域提取+本地比对
- 每个摘要调用1次API提取领域
- 本地进行简单字符串匹配
直接验证
每个摘要调用1次API(但需传入900个领域)
Token消耗更高
响应 = 提问"该摘要是否属于以下领域?{领域列表}"
关键约束:
- 预算限制:需将月API成本控制在500元以内
- 准确率:要求≥85%
- 语言特性:主要处理中文摘要