2201_75458412 2023-11-15 08:34 采纳率: 100%

已结题

Python爬虫，爬取股票网页

深交所-股票列表：https://www.szse.cn/market/product/stock/list/index.html
1、爬取50家公司数据:从第36页开始爬取
1)、显示爬取起始序号、终点号、起始页面、终点页面
2)、爬取50家公司页面所有数据并显示(包含序号，以下数据都包含序号)
3)、50组数据存入数据库stock.db
4)、从数据库查询“A股总股本"最高的10家公司信息并显示
5)、从50组数据中获取'A股流通股本最高公司的“A股简称并将超链接网址存入变量URL，
显示‘A股简称和超链接网址
2、爬取URL对应的网页，显示网页数据
6)、显示基本信息前5项
7).显示行情信息
8）、显示关键指标本日数值
9)、显示走期报告前5项
答案要求如下
1)、显示爬取起始序号、终点序号、起始页面、终点页面
2)、爬取50家公司页面所有数据并显示
3)、50组数据存入数据库stock.db
4)、从数据库查询A股总股本最高的10家公司信息并显示
5)、从50组数据一天取A股流通股本最高公司的A股简次并将超链接网址存入交量URL，显示A股简称和超链接网址
6)显示基本信目前5项

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

13条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2023-11-15 08:34

关注

引自强大而免费的微信小程序：皆我百晓生。

1. 爬取股票网页数据

首先，我们需要安装一些必要的库，如requests、BeautifulSoup和sqlite3。可以通过以下代码安装所需库：

!pip install requests
!pip install beautifulsoup4

然后，我们开始实现爬取股票网页数据的功能。

1.1 显示爬取起始序号、终点序号、起始页面、终点页面

我们需要定义起始序号、终点序号、起始页面和终点页面的变量，并打印出来。

start_page = 36
end_page = start_page + 49

print("爬取起始序号:", start_page)
print("爬取终点序号:", end_page)
print("起始页面:", start_page)
print("终点页面:", end_page)

1.2 爬取50家公司页面所有数据并显示

接下来，我们需要编写代码来爬取股票网页数据并显示。

import requests
from bs4 import BeautifulSoup

url = "https://www.szse.cn/market/product/stock/list/index.html"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}

# 发送GET请求，获取网页内容
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# 解析网页内容，获取股票数据
stock_data = []
table = soup.find("table", class_="table-block")
rows = table.find_all("tr")[1:]

for row in rows:
    cells = row.find_all("td")
    data = [cell.get_text(strip=True) for cell in cells]
    stock_data.append(data)

# 显示股票数据
for data in stock_data:
    print(data)

1.3 50组数据存入数据库stock.db

我们使用sqlite3库来操作数据库，并将50组数据存入其中。

import sqlite3

# 连接到数据库
conn = sqlite3.connect("stock.db")
cursor = conn.cursor()

# 创建数据表
cursor.execute("CREATE TABLE IF NOT EXISTS stock_data (id INTEGER PRIMARY KEY, stock_code TEXT, stock_name TEXT, ...)")

# 插入数据
for i, data in enumerate(stock_data):
    cursor.execute("INSERT INTO stock_data (id, stock_code, stock_name, ...) VALUES (?, ?, ..., ...)", (i+start_page,)+tuple(data))

# 提交更改并关闭数据库连接
conn.commit()
conn.close()

请注意，上述代码中的"..."表示省略的其他列名和列值。

1.4 从数据库查询A股总股本最高的10家公司信息并显示

我们可以执行SQL查询来获得A股总股本最高的10家公司的信息，并将结果打印出来。

import sqlite3

# 连接到数据库
conn = sqlite3.connect("stock.db")
cursor = conn.cursor()

# 查询A股总股本最高的10家公司信息
cursor.execute("SELECT stock_name, total_capital FROM stock_data ORDER BY total_capital DESC LIMIT 10")

# 显示查询结果
result = cursor.fetchall()
for row in result:
    print("公司名称:", row[0])
    print("A股总股本:", row[1])
    print()

# 关闭数据库连接
conn.close()

1.5 从50组数据中获取A股流通股本最高公司的A股简称并将超链接网址存入变量URL，并显示A股简称和超链接网址

我们可以遍历50组数据，查找A股流通股本最高的公司，并获取其A股简称和超链接网址。

import sqlite3

# 连接到数据库
conn = sqlite3.connect("stock.db")
cursor = conn.cursor()

# 查询A股流通股本最高的公司的A股简称和超链接网址
cursor.execute("SELECT stock_name, stock_code, link FROM stock_data ORDER BY circulating_capital DESC LIMIT 1")

# 获取查询结果
result = cursor.fetchone()
stock_name = result[0]
stock_code = result[1]
link = result[2]

# 显示A股简称和超链接网址
print("A股简称:", stock_name)
print("超链接网址:", link)

# 关闭数据库连接
conn.close()

2. 爬取URL对应的网页，显示网页数据

要实现此功能，我们需要编写一个函数来爬取URL对应的网页，并使用BeautifulSoup解析网页内容。

import requests
from bs4 import BeautifulSoup

def crawl_webpage(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
    }

    # 发送GET请求，获取网页内容
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    return soup

# 调用crawl_webpage函数，并显示基本信息前5项
webpage_url = "...(网页URL)"
webpage_soup = crawl_webpage(webpage_url)

info_table = webpage_soup.find("table", class_="info-table")
table_rows = info_table.find_all("tr")
for row in table_rows[:5]:
    print(row.get_text(strip=True))

# 显示行情信息
market_info = webpage_soup.find("div", class_="market-info")
print(market_info.get_text(strip=True))

# 显示关键指标本日数值
key_indicators = webpage_soup.find("div", class_="key-indicators")
print(key_indicators.get_text(strip=True))

# 显示走期报告前5项
research_reports = webpage_soup.find("div", class_="research-reports")
report_items = research_reports.find_all("div", class_="item")
for item in report_items[:5]:
    print(item.get_text(strip=True))

请注意，在上述代码中的"..."处，您需要替换为要爬取的具体网页的URL。

希望这些代码可以帮助到你，如果有任何问题，请随时问我。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(12条)

报告相同问题？

关注问题

python爬虫爬取网页数据并解析数据
2020-09-24 10:46

Python作为一门功能强大的编程语言，提供了丰富的第三方库用于网络爬虫的开发，例如requests用于发送网络请求，BeautifulSoup用于解析HTML文档等。网络爬虫的基本概念涉及到了其功能的广义性。它可以用于搜索引擎...
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
Python爬虫爬取漫画
2024-11-22 16:22

使用Python爬虫爬取漫画不仅能够帮助用户快速收集漫画资源，也能够为相关研究提供便利。 Python爬虫技术主要涉及网络请求、网页解析、数据存储等几个方面。在爬取漫画时，首先需要发送网络请求到目标漫画网站，获取...
Python爬虫爬取智联招聘
2018-05-29 16:44

总结以上知识点，Python爬虫不仅可以用于简单地爬取网页内容，还可以进行复杂的数据分析和处理。随着编程技能的提升和对相关库工具的熟悉，可以开发出更加高效、智能的爬虫程序，用于解决实际问题。在进阶版中，作者...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科的信息。百度百科是中国最大的中文百科全书，其内容丰富、涵盖广泛，是爬虫技术学习者非常...
python爬虫爬取网页数据
2022-12-01 07:45

大模型扬叔的博客 python爬虫爬取网页数据
python网络爬虫爬取静态网页
2023-12-10 21:47

可爱是我的代名词的博客网络爬虫又称网页蜘蛛、网络机器人，是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。如果说网络像一张网，那么爬就是网上的一只小电子，在网上爬行的过程中遇到了数据，就把它爬取下来。网络...
python爬虫，爬取CNNNews网页的带视频的新闻
2022-03-25 14:17

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取CNNNews等网站的带视频新闻可以为我们提供大量的实时信息。在这个项目中，我们将使用Python编程语言，特别是其强大的网络爬虫库，如...
Python爬虫爬取某网页电影排行实例
2022-12-25 10:10

永远是少年啊的博客今天继续给大家介绍Python 爬虫相关知识，本文主要内容是Python爬虫爬取电影排行实例。一、目标站点分析二、实例代码编写
Python指南：六步教你如何使用python爬虫爬取数据
2024-09-19 10:02

WANGWUSAN66的博客然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制下网页的URL。由于我们需要的是网页上的一类信息，所以我们需要对获取的地址进行分析，提取。用左上角的小框带箭头的标志，如下图，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月15日

Python爬虫，爬取股票网页

13条回答 默认 最新

问题事件

13条回答默认最新