2302_80274807 2024-06-26 16:24 采纳率: 36.4%
浏览 40
已结题

如何用ScrapegraphAI去爬取知网文献中的参考文献

  • 写回答

1条回答 默认 最新

  • 码农阿豪@新空间 新星创作者: 前端开发技术领域 2024-06-26 16:27
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    要实现该问题的解决,可以通过以下步骤来进行:
    1. 首先需要使用ScrapegraphAI创建一个智能爬虫图,并指定智能爬虫图的参数配置,包括使用的模型、温度、格式、URL等;
    2. 接着,指定需爬取的数据,包括需要爬取的内容和来源页面的URL,同时也可以直接提供HTML代码字符串,这样就可以省略HTTP请求获取页面源代码的步骤;
    3. 使用创建好的智能爬虫图进行爬取,得到结果。 例如,下面是一个基本的代码样例,展示如何使用ScrapegraphAI来爬取目标网页中的参考文献:
    from scrapegraph import SmartScraperGraph
    graph_config = {
        "llm": {
            "model": "ollama/llama3",
            "temperature": 1,
            "format": "json",
            "base_url": "http://localhost:11434",
        },
        "embeddings": {
            "model": "ollama/nomic-embed-text",
            "base_url": "http://localhost:11434",
        },
        "verbose": True,
    }
    smart_scraper_graph = SmartScraperGraph(
        prompt="返回该网站引文网络中参考文献中期刊的标题,不要链接,也就是用F12查看网页源代码,/html/body/div[2]/div[1]/div[3]/div/div/div[12]/div/div[2]/div[1]/div[1]/ul/li[1]/a[1]<li>中的a标签的title的值(不要链接)",
        source="https://kns.cnki.net/kcms2/article/abstract?v=gR09I6yibQ5NMCe53sEXbZNyc5EH7TVZcl7UrlxDHcgtcXRnUmpRTKmoYHRhafW3WN_w6v4Pbhjtr3xe7wTkRYXcBZ0tdZDu9Lx3ffsNgqJaoJgSvPR-Nt6lJxasBFlzKpJrwlYzmRGI_VLUapQ5Ew==&uniplatform=NZKPT&language=CHS",
        config=graph_config,
    )
    result = smart_scraper_graph.run()
    print(result)
    

    上述代码中,首先指定了智能爬虫图的参数配置,包括使用的模型、温度、格式、URL等。然后,通过创建一个SmartScraperGraph对象,指定需要爬取的数据,包括需要爬取的内容和来源页面的URL。最后,使用该对象的run()方法进行爬取,并输出结果。 需要注意的是,上述代码中使用的是知网的一个示例页面URL,如果要爬取不同的页面,需要将source参数相应替换为目标页面的URL。同时,还需要根据不同的页面结构,调整prompt参数指定的XPath路径。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月22日
  • 已采纳回答 1月14日
  • 创建了问题 6月26日