用于抓取文章的代码，爬取时报错，请解决



import requests
from bs4 import BeautifulSoup

def search_pubmed(query):
    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
    search_url = base_url + "esearch.fcgi?db=pubmed&term=" + query
    response = requests.get(search_url)
    soup = BeautifulSoup(response.text, '')
    id_list = [id.text for id in soup.find_all('Id')]
    return id_list

def fetch_details(pubmed_id):
    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
    fetch_url = base_url + "efetch.fcgi?db=pubmed&id=" + pubmed_id + "&retmode=xml"
    response = requests.get(fetch_url)
    soup = BeautifulSoup(r.text, 'html.parser')
    soup = BeautifulSoup(response.text, 'xml')
    try:
        title = soup.find('ArticleTitle').text
    except AttributeError:
        title = None
    try:
        abstract = soup.find('AbstractText').text
    except AttributeError:
        abstract = None
    try:
        journal = soup.find('JournalTitle').text
    except AttributeError:
        journal = None
    try:
        doi = soup.find('ArticleId', {'IdType': 'doi'}).text
    except AttributeError:
        doi = None
    return {'title': title, 'abstract': abstract, 'journal': journal, 'doi': doi}

# Example usage
ids = search_pubmed('human')
for id in ids:
    details = fetch_details(id)
    print(details)
报错如下；
Traceback (most recent call last):
  File "F:/桌面/抓2.py", line 38, in <module>
    ids = search_pubmed('human')
  File "F:/桌面/抓2.py", line 9, in search_pubmed
    soup = BeautifulSoup(response.text, '')
  File "C:\Users\HUAWEI\AppData\Local\Programs\Python\Python311\Lib\site-packages\bs4\__init__.py", line 249, in __init__
    raise FeatureNotFound(
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: . Do you need to install a parser library?

已经安装1xlm仍然报错，求解

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

Roc-xb 领域专家: 后端开发技术领域 2023-03-31 07:03

关注

代码存在问题，已经帮你修改好了，下面的代码能够正常运行。
如果对你有帮助，点个采纳谢谢！


# !/usr/bin/env python
# -*- coding: utf-8 -*-

# @author: yjp
# @software: PyCharm
# @file: main.py
# @time: 2022-08-08 16:49
import requests
from bs4 import BeautifulSoup


def search_pubmed(query):
    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
    search_url = base_url + "esearch.fcgi?db=pubmed&term=" + query
    print(search_url)
    response = requests.get(search_url)
    soup = BeautifulSoup(response.text, 'xml')
    id_list = [id.text for id in soup.find_all('Id')]
    print(id_list)
    return id_list


def fetch_details(pubmed_id):
    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
    fetch_url = base_url + "efetch.fcgi?db=pubmed&id=" + pubmed_id + "&retmode=xml"
    print(fetch_url)
    response = requests.get(fetch_url)
    soup = BeautifulSoup(response.text, 'xml')
    try:
        title = soup.find('ArticleTitle').text
    except AttributeError:
        title = None
    try:
        abstract = soup.find('AbstractText').text
    except AttributeError:
        abstract = None
    try:
        journal = soup.find('JournalTitle').text
    except AttributeError:
        journal = None
    try:
        doi = soup.find('ArticleId', {'IdType': 'doi'}).text
    except AttributeError:
        doi = None
    return {'title': title, 'abstract': abstract, 'journal': journal, 'doi': doi}


if __name__ == '__main__':
    # Example usage
    ids = search_pubmed('human')
    for id in ids:
        details = fetch_details(id)
        print(details)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python爬取网站数据，作为后端数据
2023-11-15 12:55

+++.的博客 python爬取网站数据，作为后端数据。
Python爬取豆瓣排名报错参考——关键词：换行符|中文乱码|返回空值|正则问题
2022-01-30 15:14

空条徐伦的自学的博客成功运行的代码（暂未加入爬取完整250条的循环，待更新）供参考： ''' step1 数据获取_requests 用开发者工具F12调出页面源代码，观察所需要的数据储存位置如果储存在http页面中（服务器加载数据），可直接抓取...
Python2.7爬虫——爬取微信公众号文章
2018-07-26 17:02

云南省高校数据化运营管理工程研究中心的博客今天跟着这篇博客抓取微信公众号文章练习了一下爬虫，运行成功。想和大家分享一下过程中出现的问题和解决方法。运行环境 windows 7 + Pycharm2018 + Python 2.7 目录目录 1.安装必要的Python包 1.1 关于...
Python爬虫:从后端分析为什么你爬虫爬取不到数据
2023-06-08 21:44

坚持不懈的大白的博客最简单的爬虫代码也就是各位最常使用的，直接利用requests模块访问当前网站链接，利用相关解析模块从而获取得到自己想要的数据，如下(利用python爬虫爬取自己csdn个人主页的简介数据)： # -*- coding: utf-8 -*- ...
python 爬虫爬取超链接的文字_Python爬虫实战练习：爬取微信公众号文章
2021-01-24 10:44

weixin_39956009的博客前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请...原理是，当我们在插入超链接时，微信会调用专门的API（见下图），以获取指定公众号的文章列表。因此，我们...
Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸
2021-10-21 11:36

Jack Tian的博客如需获取本文完整代码及 LOL 壁纸，请为本文右下角点赞并添加杰哥微信：Hc220088 获取。一、背景介绍随着移动端的普及出现了很多的移动 APP，应用软件也随之流行起来。最近看到英雄联盟的手游上线了，感觉还行，...
使用 Colly 在 Golang 中进行网页抓取的步骤
2024-09-30 18:07

wellshake的博客 Golang 是最强大的网络爬虫工具之一。而 Colly 在使用 Go 时提供了很大帮助。阅读这篇博文，了解有关 Colly 的最详细的信息，并学习如何使用 Colly 抓取网站。
Python爬虫---爬取腾讯动漫全站漫画
2021-06-05 18:26

不想秃头的晨晨的博客 Python爬虫---爬取腾讯动漫全站漫画操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源网页代码下载漫画图片下载结果完整...
Playwright 替代 Selenium？Python 爬虫破解动态渲染反爬，10 行代码实现无头模式爬取
2025-09-30 07:51

程序员威哥的博客文章提供了10行Python无头抓取示例，并强调合法合规底线。通过实战对比，展示了Playwright在动态渲染场景的优势用法，如可靠等待策略、JSON接口拦截和多Context并发。最后给出工程化建议，包括架构设计、资源控制、...
使用mitmproxy + appium + python 全自动抓取公众号文章
2020-05-17 20:34

后端老鸟的博客【转载请注明出处】：https://segmentfault.com/a/1190000022667615 1. 先使用mitmproxy代理抓微信公众号历史文章列表实现思路：在电脑上安装 mitmproxy代理，手机和电脑连同一wifi，手机配置当前电脑为代理服务器...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月31日

用于抓取文章的代码，爬取时报错，请解决

1条回答 默认 最新

问题事件

1条回答默认最新