关于爬虫获取数据接口的问题

您好，我现在处于学习python爬虫的初级阶段。
想请教一下，我最近尝试从https://ygp.gdzwfw.gov.cn/#/44/jygg，获取栏目“政府采购”中检索近1个月全部公告。
但是我一直苦于找不到获取数据的接口。从标头中获取的请求url也找不到，不知道有什么解决的方法。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

极客车云 2026-03-05 20:10

关注

我来帮你解决这个政府采购网站的爬虫问题，这个网站是广东省政府采购网的页面，属于动态加载的网站，我们可以通过分析接口来获取数据，以下是完整的解决方案：

一、分析网站接口

打开开发者工具：在Chrome浏览器中按F12，切换到Network标签
刷新页面，在搜索框输入list，可以找到获取公告列表的接口：https://ygp.gdzwfw.gov.cn/ygp/api/notice/queryNoticeList
查看请求参数和响应格式，发现这是一个POST请求，需要传递分页、时间范围等参数

二、完整爬虫代码

import requests
import json
from datetime import datetime, timedelta

# 计算近1个月的时间范围
end_date = datetime.now().strftime("%Y-%m-%d")
start_date = (datetime.now() - timedelta(days=30)).strftime("%Y-%m-%d")

# 请求头，模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
    "Content-Type": "application/json",
    "Referer": "https://ygp.gdzwfw.gov.cn/#/44/jygg",
    "Origin": "https://ygp.gdzwfw.gov.cn"
}

# 请求URL
url = "https://ygp.gdzwfw.gov.cn/ygp/api/notice/queryNoticeList"

# 初始化参数
page_num = 1
page_size = 15
all_data = []

while True:
    # 构造请求体
    payload = {
        "pageNum": page_num,
        "pageSize": page_size,
        "noticeType": "01",  # 政府采购公告类型
        "noticeRegionCode": "44",  # 广东省
        "startDate": start_date,
        "endDate": end_date,
        "keyWord": "",  # 搜索关键词，这里为空表示全部
        "purchaseWay": "",
        "noticeStatus": ""
    }
    
    try:
        # 发送POST请求
        response = requests.post(url, headers=headers, data=json.dumps(payload))
        response.raise_for_status()  # 检查请求是否成功
        
        # 解析响应数据
        result = response.json()
        
        if result["code"] == 200 and result["data"]["records"]:
            records = result["data"]["records"]
            all_data.extend(records)
            print(f"第{page_num}页，获取到{len(records)}条数据")
            
            # 检查是否还有下一页
            total_pages = result["data"]["pages"]
            if page_num >= total_pages:
                break
            page_num += 1
        else:
            break
            
    except Exception as e:
        print(f"请求出错：{e}")
        break

# 保存数据到JSON文件
output_file = f"政府采购公告_{start_date}_至_{end_date}.json"
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(all_data, f, ensure_ascii=False, indent=4)

print(f"数据获取完成，共{len(all_data)}条，已保存到{output_file}")

三、代码说明

时间范围计算：自动计算当前日期往前推30天的时间范围
请求头设置：模拟浏览器请求，避免被反爬
分页处理：自动处理分页逻辑，获取所有页面的数据
数据保存：将获取到的所有数据保存为JSON文件，方便后续分析

四、注意事项

反爬机制：该网站有基本的反爬机制，建议：
- 不要频繁请求，最好加入适当的延时
- 可以随机切换User-Agent
- 不要一次性请求太多数据
参数说明：
- noticeType：公告类型，01是政府采购公告，其他类型可以通过开发者工具查看
- noticeRegionCode：地区代码，44代表广东省，其他地区可以修改
- pageSize：每页数量，最大可以设置为50
数据字段：返回的数据包含公告标题、发布时间、公告类型、链接等信息，可以根据需要提取

五、扩展功能（可选）

如果需要获取公告详情，可以进一步爬取详情页面：

# 添加获取详情的函数
def get_notice_detail(notice_id):
    detail_url = f"https://ygp.gdzwfw.gov.cn/ygp/api/notice/getNoticeDetailById/{notice_id}"
    try:
        response = requests.get(detail_url, headers=headers)
        response.raise_for_status()
        return response.json()["data"]
    except Exception as e:
        print(f"获取详情出错：{e}")
        return None

# 在获取列表后，遍历获取详情
for item in all_data:
    detail = get_notice_detail(item["noticeId"])
    if detail:
        item["detail"] = detail

六、法律合规

遵守网站的robots.txt协议
不要用于商业用途
控制请求频率，避免对网站服务器造成压力
仅用于学习目的

如果运行过程中遇到问题，可以检查：

网络连接是否正常
请求头是否需要更新
参数是否有变化（网站可能会更新接口参数）

这个方案应该能帮你成功获取到近1个月的全部政府采购公告数据。

报告相同问题？

关注问题

Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据 爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
goods_爬虫_shopxo数据接口_源码
2021-10-04 01:28

标题中的“goods_爬虫_shopxo数据接口_源码”表明这是一个关于爬虫技术的项目，主要用于抓取当当网的商品数据，并将其整合到ShopXO电商系统的数据接口中。ShopXO是一款开源的电子商务平台，它提供了丰富的功能来帮助...
利用Python爬虫获取API接口：探索数据的力量
2025-01-07 15:49

不会玩技术的技术girl的博客 API（Application Programming Interface，应用程序编程接口）是一组预先定义的函数或协议，它允许不同的软件应用程序之间进行交互和通信。在Web开发中，API接口通常以HTTP请求的形式存在，通过发送特定的请求，我们...
python实现的数据爬虫和数据接口.zip
2023-12-30 13:19

Python是一种广泛应用于数据分析、机器学习和网络爬虫等领域的高级编程语言。它的语法简洁明了，使得编写爬虫变得相对容易。在这个名为"python实现的数据爬虫和数据接口.zip"的压缩包中，我们可以期待找到关于如何...
基于Python爬虫技术的天气数据获取与分析
2025-07-20 15:24

获取数据的方式通常是通过分析目标网站的网络请求，找到提供数据的API接口或者直接从网页内容中提取数据。由于网站结构的多变性，这就要求开发者具备一定的网页结构分析能力，以及相应的编程技术来应对反爬虫策略。 ...
网络爬虫数据采集，使用golang语言.zip
2024-01-03 00:58

首先，Golang，又被称为Go语言，是由Google开发的一种静态类型、编译型、并发型且具有垃圾回收功能的编程语言。它的设计目标是提高软件开发的生产力和效率，特别适合处理并发任务和网络编程，因此在网络爬虫领域表现...
爬虫（Web Scraper）是一种自动化工具，用于从网页中抓取数据 Python 是一种常用的编程语言，因其简洁的语法和强大的
2024-09-13 11:34

Python因为其简洁的语法和强大的库支持，成为了开发爬虫的热门编程语言。编写爬虫通常需要掌握网络请求、HTML解析、数据存储等多方面的技术。本文将详细介绍如何使用Python编写简单的爬虫代码，并且提供了一个模拟...
Python爬虫数据可视化分析大作业.zip
2022-05-29 10:02

Python是一种高级编程语言，以其简洁易读的语法和丰富的第三方库而受到广大开发者的喜爱。在这个作业中，Python被用来编写爬虫程序和数据处理脚本，同时也可能用于创建数据可视化图表。其次，网络爬虫技术是获取...
Python实例-毕业项目设计：爬虫技术、数据提取、文档处理
2024-12-16 11:55

Python作为一种流行的编程语言，因其简洁明了、功能强大而在网络爬虫领域被广泛使用。本实例教程详细介绍了使用Python进行网络爬虫开发的全过程，包括爬虫技术、数据提取、文档处理和自动化生成等关键步骤。首先，...
python爬虫大数据采集与挖掘6.1 .pptx
2025-12-03 15:22

同时，对所提取数据进行清洗和整理，以保证数据的质量和可用性，这对于后续的大数据挖掘工作至关重要。在进行Web信息提取时，使用Python编程语言和其丰富的库可以大大提高开发效率。Python不仅在爬虫开发中应用...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月5日