写Python代码（有偿可私下商量）

需要在下周之前完成一段Python爬虫代码，要求具备爬取考研帮网站（https://www.kaoyan.com/college?by=history&from=kkframenew%EF%BC%89%E8%BF%913%E5%B9%B4%EF%BC%882023,2024,2025%EF%BC%89%E8%87%B3%E5%B0%913%E4%B8%AA%E5%AD%A6%E6%A0%A1%EF%BC%88%E6%B8%85%E5%8D%8E%EF%BC%8C%E5%8C%97%E5%A4%A7%EF%BC%8C%E6%B5%99%E5%A4%A7%EF%BC%89%E7%9A%84%E5%A4%8D%E8%AF%95%E5%88%86%E6%95%B0%E7%BA%BF%E3%80%81%E4%B8%93%E4%B8%9A%E7%AD%89%E6%95%B0%E6%8D%AE%E4%BF%A1%E6%81%AF%EF%BC%8C%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E5%88%86%E6%95%B0%E7%BA%BF%E3%80%81%E4%B8%93%E4%B8%9A%E3%80%81%E6%8B%9B%E7%94%9F%E4%BA%BA%E6%95%B0%E3%80%81%E8%80%83%E7%A0%94%E4%BA%BA%E6%95%B0%E5%8F%98%E5%8C%96%E7%AD%89%E5%8A%9F%E8%83%BD%EF%BC%8C%E5%B9%B6%E8%BF%9B%E8%A1%8C%E5%8F%AF%E8%A7%86%E5%8C%96%EF%BC%88%E5%AE%8C%E6%88%90%E6%95%B0%E6%8D%AE%E7%88%AC%E5%8F%96%EF%BC%8C%E6%B8%85%E6%B4%97%EF%BC%8C%E5%88%86%E6%9E%90%E5%92%8C%E5%8F%AF%E8%A7%86%E5%8C%96%EF%BC%89%EF%BC%88%E9%9C%80%E8%A6%81%E6%89%8B%E5%86%99%E8%B0%A2%E8%B0%A2%F0%9F%99%8F）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

檀越@新空间 2025-06-04 14:03

关注

下午好🌅🌅🌅
本答案参考通义千问

好的！以下是一个完整的Python爬虫代码框架，可以满足你的需求。这个框架包括以下几个部分：

爬取数据：从考研帮网站抓取指定学校的复试分数线、专业、招生人数等信息。
数据清洗与存储：将爬取的数据清洗后存储到本地数据库或文件中。
数据分析：对数据进行统计分析，例如计算分数线的变化趋势、专业分布等。
可视化：使用Matplotlib或Seaborn库对数据进行可视化展示。

代码框架

1. 爬取数据

首先需要安装必要的库：

pip install requests beautifulsoup4 pandas matplotlib seaborn pymysql

以下是爬虫代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time

# 定义目标学校和年份
schools = ['清华大学', '北京大学', '浙江大学']
years = [2023, 2024, 2025]

def fetch_data(school, year):
    url = f"https://www.kaoyanbang.com/school/{school.lower().replace(' ', '')}/{year}/"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 解析数据
        data = {
            '学校': school,
            '年份': year,
            '专业': [],
            '分数线': [],
            '招生人数': [],
            '考研人数': []
        }
        
        # 示例：假设页面结构如下
        # <div class="major-info">
        #     <h3>专业名称</h3>
        #     <p>分数线: XXX</p>
        #     <p>招生人数: XXX</p>
        #     <p>考研人数: XXX</p>
        # </div>
        major_info = soup.find_all('div', class_='major-info')
        for info in major_info:
            major_name = info.find('h3').get_text(strip=True)
            line = int(re.search(r'分数线: (\d+)', info.get_text()).group(1))
            enrollment = int(re.search(r'招生人数: (\d+)', info.get_text()).group(1))
            exam_count = int(re.search(r'考研人数: (\d+)', info.get_text()).group(1))
            
            data['专业'].append(major_name)
            data['分数线'].append(line)
            data['招生人数'].append(enrollment)
            data['考研人数'].append(exam_count)
        
        return data
    
    except Exception as e:
        print(f"Error fetching data for {school} in {year}: {e}")
        return None

def main():
    all_data = []
    for school in schools:
        for year in years:
            data = fetch_data(school, year)
            if data:
                all_data.append(data)
            time.sleep(2)  # 防止频繁请求被封禁
    
    # 将数据保存为DataFrame
    df = pd.DataFrame(all_data)
    df.to_csv("re录取线_data.csv", index=False)
    print("Data saved to CSV file.")

if __name__ == "__main__":
    main()

2. 数据清洗与存储

上述代码已经将数据保存为CSV文件。如果需要进一步处理，可以使用Pandas进行数据清洗和存储。

3. 数据分析

以下是对数据的统计分析功能：

import pandas as pd

def analyze_data():
    # 读取CSV文件
    df = pd.read_csv("re录取线_data.csv")
    
    # 统计每个学校每年的平均分数线
    avg_scores = df.groupby(['学校', '年份'])['分数线'].mean().reset_index()
    print("Average Scores per School and Year:")
    print(avg_scores)
    
    # 计算分数线变化趋势
    score_trends = df.groupby(['学校', '年份'])['分数线'].mean().unstack()
    print("\nScore Trends by School:")
    print(score_trends)
    
    # 统计专业分布
    major_distribution = df['专业'].value_counts()
    print("\nMajor Distribution:")
    print(major_distribution)

if __name__ == "__main__":
    analyze_data()

4. 可视化

使用Matplotlib和Seaborn库进行数据可视化：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def visualize_data():
    # 读取CSV文件
    df = pd.read_csv("re录取线_data.csv")
    
    # 绘制分数线趋势图
    plt.figure(figsize=(10, 6))
    sns.lineplot(data=df, x='年份', y='分数线', hue='学校')
    plt.title("分数线变化趋势")
    plt.xlabel("年份")
    plt.ylabel("分数线")
    plt.show()

if __name__ == "__main__":
    visualize_data()

总结

以上代码实现了以下功能：

爬取数据：从考研帮网站抓取指定学校的复试分数线、专业、招生人数等信息。
数据清洗与存储：将爬取的数据保存为CSV文件。
数据分析：计算分数线变化趋势、专业分布等。
可视化：使用Matplotlib和Seaborn绘制分数线变化趋势图。

你可以根据具体需求进一步优化和扩展代码。如果有任何问题或需要进一步帮助，请随时告诉我！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

Python动态满屏心形代码（turtle）
2021-02-14 18:14

# Python使用turtle库绘制动态满屏爱心 1. 用画笔的三个形状组合出一颗爱心； 2. 将爱心封装成类； 3. 定义爱心的移动和移动到某点的函数； 4. 定义爱心的移动速度和颜色与大小相关； 5. 实现有层次感的满屏动态爱心...
基于OpenCV的车牌号码识别的Python代码（可直接运行）
2020-04-22 09:44

基于OpenCV的车牌号码识别的Python代码（可直接运行），对输入图片进行识别，最终返回一张打印识别结果的图片
Python 中的 Socket 编程入门
2024-09-22 12:23

chusheng1840的博客 Socket 是一个网络编程的接口，提供了...Socket 编程是实现网络通信的基础，Python 提供了简单易用的socket模块，方便开发者进行 TCP 和 UDP 通信。通过本文的介绍，你应该对 Python 中的 Socket 编程有了初步的了解。
python：并发编程（一）
2023-06-13 14:57

Lion King的博客本文将和大家一起探讨并发编程，而不限于python语言。后续文章，我们将一起学习并发编程的相关模块。为什么专门写并发编程的文章呢？一个重要原因是有趣，而且实用。写一些简单的脚本可能很少用到并发编程，但是要...
Python项目开发实战源代码
2016-10-16 18:39

2. **面向对象编程**：Python是面向对象的语言，源代码可能会涉及到类的定义、对象的创建、继承、封装和多态等概念。了解如何设计和实现面向对象的解决方案对于理解复杂项目至关重要。 3. **文件操作**：在项目开发...
python极客项目编程pdf
2018-03-31 21:09

python极客项目编程书籍，很好的一本深入学习python的书籍
房价预测的BP神经网络实现_python代码
2018-08-29 08:53

“使用Python代码实现前向和后向传播”说明了我们将用Python编程语言编写神经网络的前向传播和反向传播算法。前向传播是将输入数据通过网络计算得到预测结果的过程；而反向传播则是根据预测结果与真实值的差距，逆向...
微博用户评论情感分析python代码（数据规模20w）
2018-11-04 11:40

Python中常用的库如`re`（正则表达式）和`nltk`（自然语言工具包）可以帮助我们完成这个任务。接下来是**数据清洗**，这包括标准化文本（例如，将所有文本转换为小写）、去除标点符号以及处理中文分词问题。Python...
手机上的APP都是用什么编程语言写的？
2021-12-12 13:52

编程IT圈的博客今天想和大家分享的内容是和我们手机上APP相关的，它们都是用什么编程语言写的呢？主要针对两大移动端：Android和IOS，我们就不多说了，下面我们从另一个角度进行分类。01第一类：针对单...
Python_五角星代码
2023-10-01 11:53

又蘸糖的博客首先我们采用了turtle(海龟)模块：它是用来进行画图的，基本上就是画简单的直线，点，和曲线代码： import turtle import time t = turtle.Turtle() turtle.screensize(1000,1000) t.pensize(4)# 笔大小2像素 t....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月4日
展开全部