如何用ScrapegraphAI去爬取知网文献中的参考文献

如何用ScrapegraphAI去爬取知网文献中的参考文献，就是图中

中的


```python
graph_config = {
    "llm": {
        "model": "ollama/llama3",
        # "model": "qwen2",
        # "model": "ollama/mistral",
        "temperature": 1,
        "format": "json",  # Ollama 需要显式指定格式
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "verbose": True,
}

smart_scraper_graph = SmartScraperGraph(
    # prompt="返回该网站所有文章的标题、日期、文章链接",
    prompt="返回该网站引文网络中参考文献中期刊的标题，不要链接，也就是用F12查看网页源代码，/html/body/div[2]/div[1]/div[3]/div/div/div[12]/div/div[2]/div[1]/div[1]/ul/li[1]/a[1]<li>中的a标签的title的值（不要链接）",
    # 
    # 也接受已下载的 HTML 代码的字符串
   
    # source=requests.get("https://kns.cnki.net/kcms2/article/abstract?v=gR09I6yibQ5NMCe53sEXbZNyc5EH7TVZcl7UrlxDHcgtcXRnUmpRTKmoYHRhafW3WN_w6v4Pbhjtr3xe7wTkRYXcBZ0tdZDu9Lx3ffsNgqJaoJgSvPR-Nt6lJxasBFlzKpJrwlYzmRGI_VLUapQ5Ew==&uniplatform=NZKPT&language=CHS").text,
    # source="https://kns.cnki.net/kcms2/article/abstract?v=gR09I6yibQ5NMCe53sEXbZNyc5EH7TVZcl7UrlxDHcgtcXRnUmpRTKmoYHRhafW3WN_w6v4Pbhjtr3xe7wTkRYXcBZ0tdZDu9Lx3ffsNgqJaoJgSvPR-Nt6lJxasBFlzKpJrwlYzmRGI_VLUapQ5Ew==&uniplatform=NZKPT&language=CHS",
    source=current_page_url,
   
    config=graph_config
)

result = smart_scraper_graph.run()
print(result)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2024-06-26 16:27
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
要实现该问题的解决，可以通过以下步骤来进行：
首先需要使用ScrapegraphAI创建一个智能爬虫图，并指定智能爬虫图的参数配置，包括使用的模型、温度、格式、URL等；
接着，指定需爬取的数据，包括需要爬取的内容和来源页面的URL，同时也可以直接提供HTML代码字符串，这样就可以省略HTTP请求获取页面源代码的步骤；
使用创建好的智能爬虫图进行爬取，得到结果。例如，下面是一个基本的代码样例，展示如何使用ScrapegraphAI来爬取目标网页中的参考文献：

from scrapegraph import SmartScraperGraph graph_config = { "llm": { "model": "ollama/llama3", "temperature": 1, "format": "json", "base_url": "http://localhost:11434", }, "embeddings": { "model": "ollama/nomic-embed-text", "base_url": "http://localhost:11434", }, "verbose": True, } smart_scraper_graph = SmartScraperGraph( prompt="返回该网站引文网络中参考文献中期刊的标题，不要链接，也就是用F12查看网页源代码，/html/body/div[2]/div[1]/div[3]/div/div/div[12]/div/div[2]/div[1]/div[1]/ul/li[1]/a[1]<li>中的a标签的title的值（不要链接）", source="https://kns.cnki.net/kcms2/article/abstract?v=gR09I6yibQ5NMCe53sEXbZNyc5EH7TVZcl7UrlxDHcgtcXRnUmpRTKmoYHRhafW3WN_w6v4Pbhjtr3xe7wTkRYXcBZ0tdZDu9Lx3ffsNgqJaoJgSvPR-Nt6lJxasBFlzKpJrwlYzmRGI_VLUapQ5Ew==&uniplatform=NZKPT&language=CHS", config=graph_config, ) result = smart_scraper_graph.run() print(result)

上述代码中，首先指定了智能爬虫图的参数配置，包括使用的模型、温度、格式、URL等。然后，通过创建一个SmartScraperGraph对象，指定需要爬取的数据，包括需要爬取的内容和来源页面的URL。最后，使用该对象的run()方法进行爬取，并输出结果。需要注意的是，上述代码中使用的是知网的一个示例页面URL，如果要爬取不同的页面，需要将source参数相应替换为目标页面的URL。同时，还需要根据不同的页面结构，调整prompt参数指定的XPath路径。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何用ScrapeGraphAI 爬取页面的标题或其它信息
2025-03-21 16:11

PanLkk的博客 api_key：这个要去买才行，我买的是deepseek的，买了直接复制就行。prompt：你想要哪个内容就告诉它，比如说我要的是下面这个页面的hero。上面的装完以后到装下面的，同样也是在Terminal 窗口输入如下命令。第二个...
ScrapeGraphAI颠覆传统网络爬取技术！用AI重塑数据采集方式！支持ollama本地部署！LangChain+LangGraph打造最强全自动文章采集和内容创作AI智能体！让内容创作更简单！
2024-12-31 19:22

AI超元域的博客 ScrapeGraphAI 是一个开源的 Python 库，通过结合大语言模型（LLMs）和基于图的逻辑，彻底革新了网络爬取技术。用户只需用简单的自然语言描述需要提取的信息，即可从网站或多种文档格式中提取结构化数据。
下一代智能爬虫框架：ScrapeGraphAI 详解
2025-04-08 19:15

数据知道的博客 ScrapeGraphAI 是一个基于图计算(Graph Computing)和大语言模型（LLM）的智能爬虫框架，通过将网页解析任务建模为有向图（Directed Graph），实现自动化、可解释的网页数据采集。图节点：代表网页元素...
大模型爬虫—ScrapeGraphAI
2024-09-20 10:09

不二人生的博客是一个网络爬虫Python 库，使用大型语言模型和直接图逻辑为网站和本地文档（XML，HTML，JSON 等）创建爬取管道。只需告诉库您想提取哪些信息，它将为您完成！
AI+爬虫：ScrapeGraphAI[源码]
2025-11-13 07:43

ScrapeGraphAI是一个强大的网络数据抓取工具，它将大语言模型（LLM）和直接图的概念融为一体，用Python编程语言实现。通过这个库，用户能够有效地简化网络数据抓取的过程。ScrapeGraphAI主要支持了包括但不限于Open...
ScrapeGraphAI：基于LLM的智能爬虫，多页面爬取、语音生成，开启数据提取新纪元！
2025-06-02 17:49

大模型入门学习的博客可以从新闻网站抓取文章，并使用LLM进行文本摘要，快速生成新闻综述或行业报告。这种功能可以帮助用户及时了解最新资讯，节省阅读时间。五、快速使用。
【GitHub开源AI精选】ScrapeGraphAI：基于LLM的智能爬虫，多页面爬取、语音生成，开启数据提取新纪元
2025-06-12 16:24

寻道AI小兵的博客 ScrapeGraphAI是一个基于Python的开源网络爬虫库，由Lorenzo Padoan和Marco Vinciguerra开发。它利用大型语言模型（LLM）和图逻辑引擎，能够自动分析目标网页的结构并提取关键数据。
ScrapeGraphAI项目中使用Anthropic模型时的注意事项
2025-09-11 03:40

咎丹娜的博客 ScrapeGraphAI是一个强大的网络爬取和数据处理工具，它支持多种AI模型来处理和分析爬取的数据。在使用过程中，开发者可能会遇到关于Anthropic模型的一些配置问题，本文将详细介绍这些问题的原因和解决方案。 ## ...
利用ScrapeGraphAI结合ollama/llama3爬取，出现问题Maybe your model is not found...如何解决？
2025-04-23 22:00

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up...
ScrapeGraphAI 多图爬取中的超时问题分析与解决方案
2025-09-11 03:35

罗琰锴的博客 ScrapeGraphAI 是一个强大的网络爬取框架，其 Smart Scraper MultiGraph 功能允许用户同时处理多个URL的爬取任务。然而，在实际应用中，当处理大量URL（通常10个或更多）时，用户可能会遇到超时问题。 ## 问题背景 ...
大模型应用— 爬虫 ScrapeGraphAI大模型爬虫—ScrapeGraphAI
2025-02-07 15:40

m0_74823388的博客是一个_网络爬虫Python 库，使用大型语言模型和直接图逻辑为网站和本地文档（XML，HTML，JSON 等）创建爬取管道。只需告诉库您想提取哪些信息，它将为您完成！外链图片转存失败,源站可能有防盗链机制,建议将图片保存...
探索数据新境界：ScrapeGraphAI，一键触发智能网络抓取革命
2024-06-07 15:11

嘎啦AGI实验室的博客【技术控必备】️小红书技术宅的福音来啦！... ScrapeGraphAI用上了超先进的大型语言模型和直接图逻辑，不管是网站还是本地的XML、HTML、JSON文档，统统都能搞定！告诉它你的需求，剩下的就交给ScrapeGraphAI吧！
解决ScrapeGraphAI中Ollama模型上下文长度限制的实战指南
2025-09-11 03:35

任铃冰Flourishing的博客你是否在使用ScrapeGraphAI处理长文档时遇到过"上下文溢出"错误？是否发现Llama3模型只能处理部分网页内容？本文将系统解析Ollama本地模型的上下文长度配置机制，通过代码示例和参数调优指南，帮助你突破文本处理...
终极指南：如何用ScrapeGraphAI实现智能数据抓取
2025-11-24 08:00

钱桦实Emery的博客 ScrapeGraphAI正是为你量身打造的AI驱动数据抓取神器！这个基于Python的智能爬虫工具，利用人工智能技术让数据抓取变得前所未有的简单高效。无论你是数据分析师、开发者还是普通用户，都能轻松上手，实现精准的数据...
解决ScrapeGraphAI中SmartScraperGraph的类型错误：从原理到修复
2025-09-11 03:35

卢颜娜的博客你是否在使用ScrapeGraphAI的SmartScraperGraph时遇到过类型错误？这些错误可能导致程序崩溃或数据提取失败。本文将深入分析常见的类型错误原因，并提供具体的修复方案，帮助你顺利实现网页数据提取。读完本文后，你...
ThreeTenABP错误排查手册：解决常见的初始化与时区问题
2025-09-11 03:42

怀灏其Prudent的博客你是否在使用ScrapeGraphAI时遇到Gemini模型无法正常加载的问题？是否因配置错误导致爬虫任务频繁...Gemini作为Google AI推出的大型语言模型（LLM），在ScrapeGraphAI中提供了强大的自然语言理解能力。但用户常遇到...
ScrapeGraphAI 项目中 PromptTemplate 变量缺失问题的分析与解决
2025-09-11 03:40

邬千旻Herman的博客在 ScrapeGraphAI 项目的使用过程中，许多开发者遇到了一个关于 PromptTemplate 的常见错误。当运行示例代码时，系统会抛出 `KeyError` 异常，提示缺少 `"content"` 变量。这个问题在项目版本 1.39.0 中尤为突出，...
智能爬虫ScrapeGraphAI尝鲜
2024-08-08 15:32

许于宝的博客的博客 ScrapeGraphAI是一个创新的Python库，它融合了大型语言模型（LLM）和直接图逻辑，为用户提供了一种高效的方法，用于构建针对网站、文档和XML文件的爬虫流水线。
ScrapeGraphAI 实战指南：用AI爬虫解锁数据提取新境界
2025-11-23 07:57

滑隽蔚Maia的博客 ScrapeGraphAI将彻底改变你对数据提取的认知。这款基于Python的AI爬虫库，通过大语言模型和图形逻辑的完美结合，让你只需告诉它想要什么信息，就能自动完成整个抓取流程。 ## 为什么你需要AI驱动的爬虫工具？想象...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月26日

如何用ScrapegraphAI去爬取知网文献中的参考文献

1条回答 默认 最新

问题事件

1条回答默认最新