python 爬虫并保存到excel文件

问题遇到的现象和发生背景

Python 爬虫

如何将网站 https://www.bse.cn/nq/nqzqlistlgb.html 中地方政府债下显示的内容和网站 https://www.bse.cn/nq/nqzqlistgb.html 中国债下显示的内容爬虫并保存到excel中？

遇到的现象和发生背景，请写出第一个错误信息

尝试用以下代码，但是生成的excel中只有第一行标题，没有内容

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%


import re
import time
import datetime
import openpyxl
import parsel as parsel

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

url = 'https://www.bse.cn/nq/nqzqlistgb.html'
driver = webdriver.Chrome(executable_path='chromedriver.exe')
driver.get(url=url)

el_search = driver.find_element(by=By.XPATH, value='//*[@id="root"]/div[4]/div/div/div[1]/div[1]/div/div[1]')
# 点击
el_search.click()

time.sleep(3)

html_data = driver.page_source
#print(html_data)
selector = parsel.Selector(html_data)
results = selector.css('#root > div.mw-page > div > div > div.col-sm-12.col-md-9.col-md-push-3 > div.mw-box-content > div').getall()
#print(results)
#print(type(results))
#print(len(results))
len_results = len(results)
if len_results == 1 and results[0] == '':
    print("no result")
else:
    fieldnames = ['序号', '发行代码', '债券简称', '债券全称', '发行量(亿元)', '债券期限', '票面利率(%)', '计息方式', '起息日', '到期日']
    work_book = openpyxl.Workbook()
    work_book.create_sheet()
    work_sheet = work_book.active
    work_sheet.append(fieldnames)
    for page in range(1, 5):
        selector1 = parsel.Selector(driver.page_source)
        results1 = selector1.css('#root > div.mw-page > div > div > div.col-sm-12.col-md-9.col-md-push-3 > div.mw-box-content > div').getall()
        for r in results1[1:-1]:
            row = re.findall(
                '(.*?)(.*?)(.*?)(.*?)(.*?)(.*?)('
                '.*?)(.*?)(.*?)(.*?)(.*?)',
                r)[0]
            print(list(row))
            print(type(row))
            work_sheet.append(list(row))
        time.sleep(3)
        if page < 5:
            driver.find_element(by=By.LINK_TEXT, value='next').click()
            time.sleep(5)
    n = datetime.datetime.now().strftime('%m%d')
    work_book.save(n + '_' + 'BJS_Code_Check' + '.xlsx')
print('file written successfully')

运行结果及详细报错内容

我的解答思路和尝试过的方法，不写自己思路的，回答率下降 60%

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

cjh4312 2023-02-01 17:04

关注

我用的edge，你改成chrome应该一样的


import time
from lxml import etree
from selenium import webdriver
import pandas as pd
from selenium.webdriver.common.by import By

#保存每页数据函数
def get_page_data(all_data):
    data=[]
    for n,i in enumerate(dd):
        data.append(str(i))
        if (n+1)%10==0:
            all_data.append(data)
            data=[]
            
url = 'https://www.bse.cn/nq/nqzqlistlgb.html'#地方债卷
url2='https://www.bse.cn/nq/nqzqlistgb.html'#国债
driver = webdriver.Edge()
driver.get(url)#修改url就行
driver.maximize_window()
driver.implicitly_wait(10)
time.sleep(3)
html=etree.HTML(driver.page_source)

dd=html.xpath('//*[@id="table"]/table/tbody//text()')
#获取多少页
pages=html.xpath('//*[@href="javascript:;"]//text()')
page=0
for i in pages:
    if str(i).isnumeric():
        page+=1

all_data=[]
get_page_data(all_data)
#获取剩下每页数据
for i in range(page):
    next_click=driver.find_element(By.LINK_TEXT,f'{i+2}')
    next_click.click()
    time.sleep(1)
    html=etree.HTML(driver.page_source)
    dd=html.xpath('//*[@id="table"]/table/tbody//text()')
    get_page_data(all_data)
    time.sleep(2)
#处理数据保存
data=pd.DataFrame(all_data)
data.columns=['序号', '发行代码', '债券简称', '债券全称', '发行量(亿元)', '债券期限', '票面利率(%)', '计息方式', '起息日', '到期日']
# data.to_excel('e:/地方债.xlsx',index=False)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(2条)

报告相同问题？

关注问题

Python实现爬虫抓取与读写、追加到excel文件操作示例
2020-09-20 08:03

本示例主要讲解如何使用Python实现一个简单的爬虫，抓取糗事百科上的热门内容，并将抓取到的数据存储到Excel文件中进行读写和追加操作。首先，我们需要了解Python中的几个关键库： 1. `requests` 库用于发送HTTP...
Python项目开发实战_网络爬虫批量采集股票数据保存到Excel中_编程案例实例课程教程.pdf
2023-05-02 16:41

在本章的Python项目开发实战中，我们将学习如何利用网络爬虫批量采集股票数据并保存到Excel文件中。这个实战案例旨在帮助读者掌握Python在爬虫项目中的实际应用，包括网页分析技巧、Python网络编程方法、Excel操作...
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
Python爬虫视频信息存入Excel并可视化
2022-06-08 00:13

本项目主题“Python爬虫视频信息存入Excel并可视化”旨在教你如何利用Python的网络爬虫技术抓取视频信息，并将这些数据整理到Excel文件中，以便进一步分析和可视化。首先，我们需要使用Python的请求库（requests）...
写一个python爬虫程序，可以从网站上抓取数据并保存到excel文件中
2023-02-13 00:07

Clown爱电脑的博客首先使用requests库发送请求获取网页数据，然后使用pandas将数据保存到excel文件中。下面是一个简单的示例代码： import requests import pandas as pd # 发送请求获取网页数据 url = "http://www.example.com" ...
网络爬虫-爬取在线课程并保存到Excel-Python源码示例.zip
2022-12-13 19:26

在本压缩包中，我们关注的是使用Python进行网络爬虫技术来抓取在线课程信息，并将其整理存储到Excel文件中的过程。这个实例涉及到的主要知识点包括网络爬虫的基础、Python编程、网页解析以及数据处理和存储。 1. **...
Python爬取数据并存入Excel实例
2025-07-03 21:35

通过这个实践案例，读者可以学习到Python网络爬虫的基本流程，包括请求网页数据、解析HTML文档以及将数据保存到Excel文件的具体实现方法。 Python：一种流行的编程语言，适合快速开发脚本程序。 Requests库：用于...
基于python实现爬取在线课程并保存到Excel文件中脚本源码分享
2023-06-28 15:31

Python 在通用应用程序、自动化插件、网站、网络爬虫、数值分析、科学计算、云计算、大数据和网络编程等领域有着极为广泛的应用，像 OpenStack 这样的云平台就是由 Python 实现的，许多平台即服务（PaaS）产品都支持...
Python实现抓取网页生成Excel文件的方法示例
2020-09-21 05:22

本示例讲解了如何利用Python的PyQuery模块抓取网页内容，并将其导出到Excel文件中。首先，我们来看一下涉及的主要知识点： 1. **PyQuery模块**：PyQuery是一个Python库，它的API设计与jQuery非常相似，可以方便地...
python采集【东方财富网行情中心沪深指数上证系列指数】数据并保存到excel文件 .7z
2021-11-10 14:59

在这个项目中，我们讨论的是如何使用Python从东方财富网的行情中心获取沪深指数，特别是上证系列指数的数据，并将这些数据保存到Excel文件中。这涉及到网络请求、网页解析以及数据处理等多个环节。首先，我们需要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月1日