爬取一个网页下面的信息

问题遇到的现象和发生背景

https://wsb.gansu.gov.cn/wsb/c116314/list.shtml
用网页源代码可以看到具体的数据
用requests.get网页的数据返回码一直为400

尝试过的解决方法

通过开发者工具抓包看到有一个请求返回的数据是具体的数据，请求带着cookie还有一个参数UAta9QfS，值是加密的，get请求带上cookie和UAta9QfS之后返回的码是400
对请求头删过一些无关紧要的字段，没有效果

我想要达到的结果

想要拿到网页数据

import requests


headers = {
    "Accept": "*/*",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "Pragma": "no-cache",
    "Referer": "https://wsb.gansu.gov.cn/wsb/c116314/list.shtml",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/142.0.0.0 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest",
    "sec-ch-ua": "\"Chromium\";v=\"142\", \"Google Chrome\";v=\"142\", \"Not_A Brand\";v=\"99\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\""
}
cookies = {
    "Path": "/",
    "4hP44ZykCTt5O": "601Jn5tAdLUmYOTaquBkNVsvTnT9xbMJbJ1VeE1wPbYMz1Gw6_xWZSZ39ysNQiStMoa354UsCru7jExu1B4qLxTG",
    "_gscu_984081904": "61987137i1etni18",
    "yfx_c_g_u_id_10000005": "_ck25110116522017295807921792939",
    "7d0f4f97e8317b129e": "3601cf1eb5196db6546ba2733010c134",
    "_gscbrs_984081904": "1",
    "yfx_f_l_v_t_10000005": "f_t_1761987140708__r_t_1762137043582__v_t_1762157912064__r_c_2",
    "_gscs_984081904": "t621579110n8xug10|pv:12",
    "4hP44ZykCTt5P": "0FW3xWVR2g.jqtBYQREa2pFSQZUy8LoA134sxQharTnYycOgbh84sH79mQ8klfiKLIP_6IzMUxCHQxg3HvtNRs.JVtSh2mFX1xmCTxMrlAk0BR5LHFwInId_hpxkOvDNKJtHhDROcsiKmlwtLNveVmldfpCs1v7DFV2D0KNo_0BI1D8yBBOjiIulDchlN_sPyyzG.oFGWfmtSPgJmrYGtLPcMONNZLX3R3RzjXEHLf4BCVgOcXgiCyKta4USI3ouScUJoKXFhH_aGGHea.bNa0YU3oCG_c0Mn4dJyG4nJ1jzOP4ygxvwBqNEir4LZeN1rWamD62gDJZyI2_eydX_6jG29O3kC6asjeW73it2W0rykkyqnyNdvY_4q1W0v80bz"
}
url = "https://wsb.gansu.gov.cn/common/search/ecdbf8efb0524164b80d5eeb00aa8348"
params = {
    "UAta9QfS": "0BrF1walqErGBPF_gw6q1BUASAG9fOkZB7wEWQYq5akKw49LPlN8uGEq8aasyf.HZwYt0xkxzMQO1V63yuG6ZEJWX.jaQo3zu0EBIiZh4EtJOyNAfxMCjvPOVjCKtOWdz9cyHi26QoKuXK2aIW3zEhuPV9IQ5ifbMOD.cuSzWb6PVM38buPCr3YmpLH3CNjS9d4GQPhxIRl6NWVTgw1BmgYOOuUD.a_nTGa"
}
response = requests.get(url, headers=headers, cookies=cookies, params=params)

print(response.text)
print(response)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-11-03 18:39
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题分析

你想爬取一个网页下的信息，但是使用 requests.get 获取网页数据返回码一直为 200，但是网页源代码中并没有看到具体的数据。

可能原因

网页使用了JavaScript加载数据: 网页可能使用了JavaScript来加载数据，而 requests.get 只能获取网页的HTML源代码，不会执行JavaScript代码。
网页使用了Ajax请求: 网页可能使用了Ajax请求来获取数据，而 requests.get 只能获取网页的HTML源代码，不会获取Ajax请求的数据。
网页使用了反爬虫机制: 网页可能使用了反爬虫机制来防止爬虫程序获取数据。

解决方案

使用Selenium: 使用Selenium来模拟浏览器的行为，执行JavaScript代码并获取网页的数据。
使用Ajax请求: 使用Ajax请求来获取网页的数据，例如使用 requests.get 来获取Ajax请求的URL。
使用反爬虫机制绕过: 使用反爬虫机制绕过的方法，例如使用代理IP、User-Agent切换等。

核心代码

from selenium import webdriver # 使用Selenium来模拟浏览器的行为 driver = webdriver.Chrome() driver.get("https://wsb.gansu.gov.cn/wsb/c116314/list.shtml") # 获取网页的数据 data = driver.page_source print(data) # 关闭浏览器 driver.quit()

或者

import requests from bs4 import BeautifulSoup # 使用Ajax请求来获取网页的数据 url = "https://wsb.gansu.gov.cn/wsb/c116314/list.shtml" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 获取网页的数据 data = soup.find_all('div', class_='list-item') print(data)

请根据实际情况选择合适的解决方案。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python爬取fofa网页端数据过程解析
2020-09-16 12:38

在本文中，我们将深入探讨如何使用Python编程语言来爬取FOFA（网络空间安全搜索引擎）的网页端数据。FOFA是一个强大的工具，它允许用户搜索全球互联网上的资产信息，包括漏洞分析、应用分布统计和流行度评估。下面...
Python爬虫开发：爬取简单的网页数据
2024-08-13 22:07

做梦都在改BUG的博客本文详细介绍了如何使用Python爬取简单的网页数据，以掘金为例，展示了从发送HTTP请求、解析HTML文档到提取和保存数据的完整过程。通过这个示例，你可以掌握基本的网页爬取技巧，为后续的数据分析打下基础。
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一...答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，这门语言入门挺简单的，特别是对于那些有其他编程语言经验的人。
python 爬取58二手房信息
2018-07-04 21:27

在本项目中，我们主要探讨如何使用Python编程语言来实现一个网络爬虫，目标是抓取58同城网站上武汉地区的二手房信息。这个任务涉及到的知识点主要包括Python的基础语法、网络爬虫原理、网页数据解析、数据库操作以及...
通过python爬取网页图片
2022-09-12 18:45

本文将深入探讨如何使用Python来爬取网页中的图片，这是一个常见的任务，对于数据分析师、网站开发者或者任何需要大量图片资源的人来说都十分实用。首先，我们需要了解Python中的几个关键库，它们在爬虫开发中扮演...
【爬虫保姆级教程】零基础用 Python 爬取你的第一个网页
2025-09-27 14:38

深蓝电商API的博客然后选择一个静态测试网页作为爬取目标；接着分步骤讲解代码实现过程，包括发送请求、解析HTML和提取数据；最后强调爬虫的法律合规性，并给出进阶学习建议。全文采用通俗易懂的语言，配有详细注释的代码示例，帮助零...
爬取一个网站的视频
2022-12-31 12:58

或困的博客爬取网站上的视频通常需要使用爬虫...使用编程语言(如 Python)编写爬虫程序，使用 HTTP 库(如 requests)发送 HTTP 请求获取网页源代码。使用正则表达式或者网页解析库(如 BeautifulSoup)提取出视频的 URL 地址。 ...
Python爬虫基础爬取网页访问网页
2021-02-18 20:54

MYH永恒的博客目录一、对爬虫的理解：二、爬取网页1.模仿浏览器2.实例分析（1）代码（2）获取浏览器User-Agent总结一、对爬虫的理解：爬虫听上去似乎很高大上，其实简单一句话就是：模仿浏览器对网页进行访问并解析，进一步从中...
【扇贝编程】python爬虫——爬取动态网页笔记
2024-09-03 14:52

s_5421的博客在示例网站上登陆后点开第一条请求（wp-login.php）。右边的 Headers 里可以看到请求地址（Request URL）为 https://wpblog.x0y1.com/wp-login.php，请求方式（Request Method）是 POST，状态码为 302。
利用Python爬取网页图片
2024-12-06 15:28

Python_trys的博客因此考虑可能该元素是动态的，细心的同学可能会发现，当在网页内，向下滑动鼠标滚轮，图片是动态刷新出来的，也就是说，该网页并不是一次加载出全部资源，而是动态加载资源。发现我们需要的图片src是在img标签下的，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月3日