爬取网页节点下的所有数据

网页为 “https://www.cnzj5u.com/list_block.aspx?stid=187&rptid=8%E2%80%9D
通过抓包工具能看到用的post请求，post带着stid ：187 rptid ：8两个参数，会得到一个表单数据。
通过点击下一页抓包工具看到的请求都是一样的，只有表单数据中一个__EVENTTARGET的值会有变化
如何通过代码实现爬取所有的数据

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-11-08 21:38

关注

让【宝码香车】来帮您解答，本回答参考DeepSeek编写，并整理提供。

如果答案能帮助您，请采纳，非常感谢！
.
每日一句正能量，让它带给您好心情：每一次失败，都是成功的伏笔，只要你不放弃。
.

爬取网页节点下的所有数据

根据您提供的信息，这是一个使用POST请求和表单参数进行分页的网页爬取需求。下面我将详细说明如何通过代码实现爬取所有数据。

分析思路

该网站使用ASP.NET Web Forms技术，通过POST请求获取数据
分页通过__EVENTTARGET参数控制，点击不同页码时该值会变化
需要模拟表单提交来获取每一页的数据

实现代码

import requests
from bs4 import BeautifulSoup
import time
import re


def crawl_all_data():
    """
    爬取所有页面的数据
    """
    base_url = "https://www.cnzj5u.com/list_block.aspx?stid=187&rptid=8"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Content-Type': 'application/x-www-form-urlencoded'
    }
    
    # 存储所有数据
    all_data = []
    
    # 首先获取第一页，提取必要的表单数据和总页数
    session = requests.Session()
    first_page_response = session.get(base_url, headers=headers)
    first_page_soup = BeautifulSoup(first_page_response.text, 'html.parser')
    
    # 提取表单数据
    form_data = extract_form_data(first_page_soup)
    
    # 提取总页数
    total_pages = extract_total_pages(first_page_soup)
    print(f"总页数: {total_pages}")
    
    # 爬取每一页
    for page in range(1, total_pages + 1):
        print(f"正在爬取第 {page} 页...")
        
        if page == 1:
            # 第一页数据已经获取，直接解析
            page_data = parse_page_data(first_page_soup)
            all_data.extend(page_data)
        else:
            # 更新页码参数
            form_data['__EVENTTARGET'] = f'Page${page}'
            
            # 发送POST请求
            response = session.post(base_url, data=form_data, headers=headers)
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 解析数据
            page_data = parse_page_data(soup)
            all_data.extend(page_data)
            
            # 更新表单数据（ASP.NET可能会更新其他隐藏字段）
            form_data = extract_form_data(soup)
        
        # 添加延时，避免请求过于频繁
        time.sleep(1)
    
    return all_data


def extract_form_data(soup):
    """
    提取表单中的所有隐藏字段
    """
    form_data = {
        'stid': '187',
        'rptid': '8'
    }
    
    # 提取所有隐藏的input字段
    hidden_inputs = soup.find_all('input', {'type': 'hidden'})
    for input_field in hidden_inputs:
        name = input_field.get('name')
        value = input_field.get('value', '')
        if name:
            form_data[name] = value
    
    return form_data


def extract_total_pages(soup):
    """
    提取总页数
    """
    # 查找分页控件，通常包含总页数信息
    pagination = soup.find('div', class_='pagination')  # 根据实际HTML结构调整选择器
    
    if pagination:
        # 查找包含页码的链接或文本
        page_links = pagination.find_all('a')
        if page_links:
            # 获取最后一个页码链接的文本
            last_page_text = page_links[-1].get_text()
            if last_page_text.isdigit():
                return int(last_page_text)
    
    # 如果无法从分页控件获取，尝试从其他位置获取或设置默认值
    # 这里需要根据实际网页结构调整
    return 10  # 默认值，需要根据实际情况调整


def parse_page_data(soup):
    """
    解析单页数据
    """
    page_data = []
    
    # 根据实际HTML结构定位数据行
    # 这里需要根据实际网页结构调整选择器
    data_rows = soup.find_all('tr', class_='data-row')  # 示例选择器
    
    for row in data_rows:
        item_data = {}
        
        # 提取每个字段的数据
        # 这里需要根据实际HTML结构调整
        cells = row.find_all('td')
        if len(cells) >= 3:  # 根据实际列数调整
            item_data['title'] = cells[0].get_text().strip()
            item_data['link'] = cells[0].find('a')['href'] if cells[0].find('a') else ''
            item_data['date'] = cells[1].get_text().strip()
            item_data['category'] = cells[2].get_text().strip()
            
            page_data.append(item_data)
    
    return page_data


# 执行爬取
if __name__ == "__main__":
    try:
        all_data = crawl_all_data()
        print(f"共爬取 {len(all_data)} 条数据")
        
        # 保存数据到文件
        import json
        with open('crawled_data.json', 'w', encoding='utf-8') as f:
            json.dump(all_data, f, ensure_ascii=False, indent=2)
        
        print("数据已保存到 crawled_data.json")
        
    except Exception as e:
        print(f"爬取过程中出现错误: {e}")

关键点说明

表单数据处理：

需要提取所有隐藏字段（如__VIEWSTATE, __EVENTVALIDATION等）
这些字段在每次请求后可能会更新

分页控制：

__EVENTTARGET参数控制分页，格式通常为Page$页码
需要先获取总页数来确定循环范围

会话保持：

使用requests.Session()保持会话状态
ASP.NET应用通常需要维护会话状态

注意事项

选择器调整：代码中的CSS选择器需要根据实际网页HTML结构调整
反爬措施：适当添加延时，避免请求过于频繁
错误处理：添加适当的异常处理机制
合法性：确保爬取行为符合网站的robots.txt和相关法律法规

调试建议

使用浏览器开发者工具观察网络请求
先测试单页爬取，确认选择器正确
逐步增加页码，验证分页逻辑

请根据实际网页结构调整代码中的选择器和解析逻辑。

报告相同问题？

关注问题

Python爬虫入门教程！手把手教会你爬取网页数据
2022-07-29 20:05

m0_67401228的博客爬虫就是自动获取网页内容的程序，例如搜索引擎，Google，Baidu等，每天都运行着庞大的爬虫系统，从全世界的网站中爬虫数据，供用户检索时使用。爬虫流程其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤模拟...
Selenium自动化爬取网页
2025-03-09 15:04

一语道破504的博客 webdriver.Chrome() browser = webdriver.Firefox() browser = webdriver.Edge() browser = webdriver.Safari() 3、访问页面可以使用 get请求方法请求网页，向其参数传入要请求的网页的URL即可。比如访问淘宝，并...
爬取淘宝商品数据项目的源代码
2022-03-05 22:13

2. 数据解析与处理：在爬取淘宝商品数据时，需要解析商品页面的HTML源码，找到包含价格、标题、销量等信息的数据节点。这可能涉及到XPath或CSS选择器的使用，以及对抓取到的字符串进行清洗和格式化。 3. 模拟登录与...
C#爬取数据开发的云顶之奕辅助
2020-12-21 21:22

在这个项目中，C#用于构建后端逻辑，处理数据爬取和解析，以及与前端WinFrom界面的交互。 2. **网络爬虫技术**：网络爬虫是自动抓取网页信息的程序。在本项目中，开发者编写了特定的爬虫代码，以定期或实时地从云顶...
基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx
2022-02-13 17:30

- **Scrapy爬虫框架**：Scrapy是一个用于Web抓取的强大Python框架，它可以高效地抓取网页数据，并支持多线程爬取。本项目利用Scrapy来开发爬虫逻辑，包括网页请求、响应处理以及数据解析等功能。 - **XPath网页提取...
hbuilderx简单网页代码_Python爬取网页数据
2020-11-23 12:21

weixin_39908948的博客都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备IDE：PyCharm库：requests、lxml注：requests...
Python 等多语言基于爬虫框架实现数据爬取解决技术盲区！.zip
2026-01-14 18:29

在爬虫框架的助力下，开发者可以快速搭建起爬虫项目，这些框架通常具备一套完善的机制来处理网页请求、解析网页内容、存储数据以及应对反爬措施等。例如，Python中的Scrapy框架就提供了一个快速开发爬虫的完整系统。...
Python 爬虫实战：爬取招聘网站薪资水平数据分析
2026-01-02 18:39

python 爬虫工程师的博客本文介绍了利用Python爬虫技术抓取招聘网站薪资数据并进行可视化分析的全流程。文章详细讲解了基于Requests+BeautifulSoup的...文章提供了可复用的代码方案，强调合规爬取原则，为求职者、HR和数据分析师提供了有价值的
Python 爬虫实战：爬取 BOSS 直聘岗位薪资数据
2025-12-21 11:10

python 爬虫工程师的博客本文详细介绍了使用Python爬取BOSS直聘岗位薪资数据的技术方案。文章首先分析了BOSS直聘的页面结构和反爬机制，然后基于requests和BeautifulSoup库构建爬虫程序，实现岗位名称、薪资范围、公司信息等关键数据的抓取...
知乎分布式数据爬取与处理实战
2025-07-08 21:14

岑秋苑的博客 htmltable {th, td {th {pre {简介：在大数据获取中，分布式爬取...关键技术包括Scrapy-Redis的扩展应用、MongoDB数据存储、网页解析、反爬策略处理、数据清洗与预处理、监控与日志管理，以实现高效的数据采集和分析。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月8日

爬取网页节点下的所有数据

4条回答 默认 最新

爬取网页节点下的所有数据

分析思路

实现代码

关键点说明

注意事项

调试建议

问题事件

4条回答默认最新