爬虫+数据库+可视化


import requests
from bs4 import BeautifulSoup
import time
import sqlite3


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0"
}


def getPositionInfo(detail_url):
    res = requests.get(detail_url, headers=headers)
    if res.status_code == 200:
        html = res.text
        soup = BeautifulSoup(html, "lxml")
        job = soup.find(class_="new_job_name")
        if job:
            job = job.text.strip()
        else:
            job = "N/A"
        academic = soup.find(class_="job_academic")
        if academic:
            academic = academic.text
        else:
            academic = "N/A"
        position = soup.find(class_="job_position")
        if position:
            position = position.text
        else:
            position = "N/A"
        salary = soup.find(class_="job_money cutom_font")
        if salary:
            salary = salary.text
        else:
            salary = "N/A"
        insert_into_db(job, academic, position, salary)
    else:
        print(f"请求失败，状态码：{res.status_code}")


def insert_into_db(job, academic, position, salary):
    conn = sqlite3.connect('internship_data.db')
    cursor = conn.cursor()
    # 创建表，如果表不存在
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS positions (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            job TEXT,
            academic TEXT,
            position TEXT,
            salary TEXT
        )
    ''')
    # 插入数据
    cursor.execute('''
        INSERT INTO positions (job, academic, position, salary)
        VALUES (?,?,?,?)
    ''', (job, academic, position, salary))
    conn.commit()
    cursor.close()
    conn.close()


def main():
    for i in range(1, 16):
        url = f"https://www.shixiseng.com/interns?page={i}&type=intern&keyword=%E7%AE%97%E6%B3%95%E5%AE%9E%E4%B9%A0%E7%94%9F&area=&months=&days=&degree=&official=entry&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%85%A8%E5%9B%BD&internExtend="
        res = requests.get(url, headers=headers)
        if res.status_code == 200:
            html = res.text
            soup = BeautifulSoup(html, "lxml")
            titles = soup.find_all(class_="title ellipsis font")
            for item in titles:
                detail_url = item.attrs["href"]
                getPositionInfo(detail_url)
        else:
            print(f"请求失败，状态码：{res.status_code}")
        time.sleep(2)


if __name__ == "__main__":
    main()



from pyecharts.charts import Line, Pie
import sqlite3
import pandas as pd
from pyecharts import options as opts


def fetch_data_from_db():
    conn = sqlite3.connect('internship_data.db')
    query = """
    SELECT position AS city, salary
    FROM positions
    """
    df = pd.read_sql_query(query, conn)
    conn.close()
    return df


def process_data(df):
    cityDict = {}
    city_num_dict = {}
    for index, row in df.iterrows():
        city = row['city']
        salary = row['salary']
        if "薪资面议" in salary:
            continue
        daily = salary.split("/")[0]
        daily_list = daily.split("-")
        if len(daily_list) == 1:
            start = daily_list[0]
            end = daily_list[0]
        elif len(daily_list) == 2:
            start = daily_list[0]
            end = daily_list[1]
        try:
            average = (int(start) + int(end)) / 2
        except ValueError:
            continue
        if city not in cityDict:
            cityDict[city] = []
        cityDict[city].append(average)
    for city, values in cityDict.items():
        average_value = sum(values) // len(values)
        cityDict[city] = average_value
        city_num_dict[city] = len(values)
    return cityDict, city_num_dict


def visualize_data(cityDict, city_num_dict):
    # 可视化工资平均值
    line_salary = Line()
    line_salary.add_xaxis(list(cityDict.keys()))
    line_salary.add_yaxis(
        series_name="工资平均值",
        y_axis=list(cityDict.values()),
        label_opts=opts.LabelOpts(is_show=False),  # 不显示标签
        markpoint_opts=opts.MarkPointOpts(
            data=[
                opts.MarkPointItem(type_="max", name="最大值"),
                opts.MarkPointItem(type_="min", name="最小值")
            ]
        ),
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_="average", name="平均值")
            ]
        )
    )
    line_salary.set_global_opts(
        title_opts=opts.TitleOpts(title="不同城市工资平均值", subtitle="实习岗位"),
        tooltip_opts=opts.TooltipOpts(trigger="axis", axis_pointer_type="cross"),
        xaxis_opts=opts.AxisOpts(
            axislabel_opts=opts.LabelOpts(rotate=45),  # x轴标签旋转45度
            name="城市",
            name_location="middle",
            name_gap=30
        ),
        yaxis_opts=opts.AxisOpts(
            name="工资平均值",
            name_location="middle",
            name_gap=30
        ),
        toolbox_opts=opts.ToolboxOpts(is_show=True),  # 显示工具箱
        legend_opts=opts.LegendOpts(is_show=True)
    )
    line_salary.render("salary_line.html")

    # 可视化职位数量
    line_positions = Line()
    line_positions.add_xaxis(list(city_num_dict.keys()))
    line_positions.add_yaxis(
        series_name="职位数量",
        y_axis=list(city_num_dict.values()),
        label_opts=opts.LabelOpts(is_show=False),
        markpoint_opts=opts.MarkPointOpts(
            data=[
                opts.MarkPointItem(type_="max", name="最大值"),
                opts.MarkPointItem(type_="min", name="最小值")
            ]
        ),
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_="average", name="平均值")
        ]
        )
    )
    line_positions.set_global_opts(
        title_opts=opts.TitleOpts(title="不同城市职位数量", subtitle="实习岗位"),
        tooltip_opts=opts.TooltipOpts(trigger="axis", axis_pointer_type="cross"),
        xaxis_opts=opts.AxisOpts(
            axislabel_opts=opts.LabelOpts(rotate=45),
            name="城市",
            name_location="middle",
            name_gap=30
        ),
        yaxis_opts=opts.AxisOpts(
            name="职位数量",
            name_location="middle",
            name_gap=30
        ),
        toolbox_opts=opts.ToolboxOpts(is_show=True),
        legend_opts=opts.LegendOpts(is_show=True)
    )
    line_positions.render("positions_line.html")


def visualize_pie(city_num_dict):
    # 可视化职位数量占比的饼图
    pie = Pie()
    data_pair = [(city, num) for city, num in city_num_dict.items()]
    pie.add(
        series_name="不同城市职位数量占比",
        data_pair=data_pair,
        label_opts=opts.LabelOpts(formatter="{b}: {d}%")
    )
    pie.set_global_opts(
        title_opts=opts.TitleOpts(title="不同城市职位数量占比", subtitle="实习岗位"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_left="left", pos_top="20%")
    )
    pie.render("positions_pie.html")


if __name__ == "__main__":
    df = fetch_data_from_db()
    cityDict, city_num_dict = process_data(df)
    visualize_data(cityDict, city_num_dict)
    visualize_pie(city_num_dict)

三个图旁边都加一个超链接跳转到代码中的网站

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2024-12-31 12:35
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
要求回答格式规范，有条理，并给出案例和代码。问题：结合给出的代码，说明如何使用Python爬取数据并存储到SQLite数据库，然后从数据库中获取数据进行处理并可视化展示。回答：
爬取数据并存储到SQLite数据库的步骤：
创建一个函数getPositionInfo(detail_url)，用于爬取指定页面的信息，并将信息存储到数据库中。
使用BeautifulSoup从网页中提取所需信息如职位名称、学历要求、职位描述和薪资等。
将提取的信息插入到SQLite数据库中的positions表中，使用insert_into_db(job, academic, position, salary)函数进行数据库操作。示例代码：

# 示例代码略，根据提供的函数实现数据爬取和存储到数据库的功能

从数据库中获取数据并进行处理的步骤：
创建一个函数fetch_data_from_db()，用于从SQLite数据库中获取数据并返回DataFrame对象。
创建一个函数process_data(df)，用于处理获取的数据，例如统计各城市的平均薪资等。示例代码：

# 从数据库中获取数据并返回DataFrame对象 df = fetch_data_from_db() # 处理获取的数据，统计各城市的平均薪资 city_dict = {} for index, row in df.iterrows(): city = row['city'] salary = row['salary'] if city in city_dict: city_dict[city].append(salary) else: city_dict[city] = [salary] # 对数据进行可视化展示，这里以使用pyecharts库绘制柱状图或饼图为例 from pyecharts.charts import Bar bar = ( Bar() .add_xaxis(list(city_dict.keys())) .add_yaxis("平均薪资", [sum(salaries) / len(salaries) for salaries in city_dict.values()]) .set_global_opts(title_opts=opts.TitleOpts(title="各城市实习生平均薪资")) ) bar.render("average_salary_by_city.html")

通过以上步骤，可以完整地实现从数据爬取、存储到数据库，到数据获取、处理和可视化展示的流程。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 开发音乐播放(爬虫+可视化+数据分析+数据库)全套项目文件
2023-10-30 09:44

在本项目中，"Python 开发音乐播放(爬虫+可视化+数据分析+数据库)全套项目文件"涵盖了四个关键领域：Python爬虫、数据可视化、数据分析以及数据库管理。这些技术是现代数据驱动应用开发的核心组成部分，下面将分别...
Python大作业——爬虫+可视化+数据分析+数据库（可视化篇）
2022-08-02 05:38

m0_67402731的博客相关链接 Python大作业——爬虫+可视化+数据分析+数据库（简介篇） Python大作业——爬虫+可视化+数据分析+数据库（爬虫篇） Python大作业——爬虫+可视化+数据分析+数据库（数据分析篇） Python大作业——爬虫+可视...
python豆瓣电影爬虫+数据分析可视化.zip
2021-07-20 09:11

Python豆瓣电影爬虫+数据分析可视化项目是一个典型的Web数据获取、处理和展示的综合实践。该项目主要涉及以下几个核心知识点： 1. Python编程基础：Python作为脚本语言，以其简洁易读的语法深受程序员喜爱，尤其...
Python大作业-音乐播放(基于爬虫+可视化+数据分析+数据库).rar
2021-12-17 20:18

此外，项目可能还使用了Matplotlib、Seaborn或Plotly等可视化库，将音乐数据以图表的形式展示出来，如歌曲流行度趋势图、歌手热度排行榜等，帮助用户直观理解数据。再者，项目中涉及了**GUI（图形用户界面）**。这...
CSDN学院热门课程爬虫+分析与可视化代码.rar
2021-10-01 13:32

1. Python编程：Python是用于实现数据采集、处理和可视化的常用语言。它的简洁语法和丰富的库使得它成为爬虫和数据分析的理想选择。例如，我们可以使用requests库进行HTTP请求，获取网页数据；使用BeautifulSoup或者...
Python爬虫数据可视化分析大作业.zip
2022-05-29 10:12

Python爬虫数据可视化分析大作业是一个综合性的Python实战项目，旨在教授如何利用Python进行网络爬虫，对抓取的数据进行处理、分析，并通过可视化手段展示结果。该项目涵盖了多个关键的知识点，包括Python基础、网络...
2024年Python大作业——爬虫+可视化+数据分析+数据库(3)，2024年最新社招面试经验
2024-05-03 15:53

2301_79099373的博客于是就诞生了这样一个类似音乐播放器的应用程序以下为每一部分内容的对应博客地址： Python大作业——爬虫+可视化+数据分析+数据库（爬虫篇） [Python大作业——爬虫+可视化+数据分析+数据库（可视化篇） ]( ) ...
基于python的疫情数据爬虫+微博关键词爬虫（数据库）+数据预处理及可视化+数据情感分析源码+项目说明.zip
2024-12-08 01:10

本项目适合有一定Python编程基础的学习者，通过实践可以掌握网络爬虫技术、数据库操作、数据处理与分析以及数据可视化等技能。同时，情感分析部分还能增强对自然语言处理的理解和应用能力。请注意，本资源仅供学习...
爬虫+数据分析+可视化大作业：基于大数据的高质量电影分析报告
2022-07-30 21:53

听窗的博客在我们的日常生活中，电影已经成为了我们娱乐放松活动所不可缺少的元素。然而，自电影诞生以来，人们每天都在...本文以豆瓣评分为标准，用Scrapy爬虫框架爬取豆瓣TOP250网页，再用Pandas,Numpy三方库进行数据处理，提取
Python大作业：音乐播放软件（爬虫+可视化+数据分析+数据库）.zip
2022-01-06 12:08

这是一个基于Python的音乐播放软件项目，它涵盖了多个重要的IT知识点，包括爬虫技术、数据可视化、数据分析以及数据库管理。下面将分别对这些方面进行详细解释。 1. **Python爬虫**： Python爬虫是该项目的第一步...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月31日

爬虫+数据库+可视化

1条回答 默认 最新

问题事件

1条回答默认最新