Jupyter Notebook 网站爬虫

问题遇到的现象和发生背景

Jupyter Notebook 网站爬虫以下链接中的信息，希望发行日期每次自动输入上周六日期至本周五日期，点击查询，如有结果，将所有查询到的信息自动下载到excel文档中，查询没有相关结果，直接提示"no result", 请问怎么实现？感谢~

网站链接：https://www.shclearing.com.cn/IssuerServicePlateform/view/client/search/ISIN_search_do.jsp

我想要达到的结果

、

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

梦里逆天 2022-09-02 17:28

关注

比较笨的办法


import calendar
import re
import time

import openpyxl
import parsel as parsel
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

url = 'https://www.shclearing.com.cn/IssuerServicePlateform/view/client/search/ISIN_search_do.jsp'
service = Service(r"D:\Softwares\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url=url)

js1 = "document.getElementById('startDate').removeAttribute('readonly')"  # 移除只读属性
js2 = "document.getElementById('startDate').setAttribute('maxlength', 10)"  # 修改maxlength的值
driver.execute_script(js1)
driver.execute_script(js2)

js3 = "document.getElementById('endDate').removeAttribute('readonly')"  # 移除只读属性
js4 = "document.getElementById('endDate').setAttribute('maxlength', 10)"  # 修改maxlength的值
driver.execute_script(js3)
driver.execute_script(js4)

# 获取当前时间
time1 = time.localtime()
# print(time1)
# 返回给定日期的日期码。0（星期一）到6（星期日）。月份为 1（一月） 到 12（12月）。
calendar1 = calendar.weekday(time1.tm_year, time1.tm_mon, time1.tm_mday)
# print(calendar1)

last_saturday = (-2 - calendar1) * 24 * 60 * 60 + time.time()
cur_friday = (4 - calendar1) * 24 * 60 * 60 + time.time()

# 获得上周六日期
last_sat = time.strftime('%Y-%m-%d', time.localtime(last_saturday))
# 获得本周五日期
cur_fri = time.strftime('%Y-%m-%d', time.localtime(cur_friday))

# print(last_sat)
# print(cur_fri)

el_start = driver.find_element(by=By.ID, value="startDate")
el_start.send_keys(last_sat)
# el_start.send_keys('2022-08-24')
time.sleep(2)

el_end = driver.find_element(by=By.ID, value="endDate")
el_end.send_keys(cur_fri)
# el_end.send_keys('2022-09-02')

# 找到查询按钮
el_search = driver.find_element(by=By.XPATH, value='//*[@id="button"]')
# 点击
el_search.click()

# 滑动到页面底部
# driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

time.sleep(3)

# 找到重置
# el_reset = driver.find_element(by=By.XPATH, value='//*[@id="button2"]')
# el_reset.click()

html_data = driver.page_source
# print(html_data)


selector = parsel.Selector(html_data)
results = selector.css('#ISINS > tbody > tr').getall()
# print(results)
# print(type(results))
# print(len(results))
len_results = len(results)
# 判断是否有结果
if len_results == 1 and results[0] == '':
    print("no result")
else:
    # 获取总页数
    page_total = int(re.findall('<span class="gray_text12"> 共(.*?)</span>', html_data)[0])
    fieldnames = ['序号', '产品代码', 'ISIN编码', '发行日', '产品中文全称', '产品中文简称', '产品英文简称']
    # 1.创建空白工作簿
    work_book = openpyxl.Workbook()
    # 2.创建新的工作表
    work_book.create_sheet()
    work_sheet = work_book.active  # 获取当前工作表
    # 4.写入单元格
    # 写入标题行
    work_sheet.append(fieldnames)
    for page in range(1, page_total + 1):
        # 获取数据
        selector1 = parsel.Selector(driver.page_source)
        results1 = selector1.css('#ISINS > tbody > tr').getall()
        for r in results1[1:-1]:
            row = re.findall(
                '<td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>('
                '.*?)</td></tr>',
                r)[0]
            print(list(row))
            # print(type(row))
            work_sheet.append(list(row))
        time.sleep(3)
        if page < page_total:
            # 点击“下一页”
            driver.find_element(by=By.LINK_TEXT, value='下一页').click()
            time.sleep(5)
    # 保存Excel文件
    # work_book.save('test.xlsx')
# 关闭浏览器
driver.close()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

图解Python编程神器Jupyter Notebook
2021-06-20 20:02

【1】详细讲解鼎鼎大名的Python编程神器Jupyter Notebook。【2】Jupyter Notebook看似简单，实际上功能非常强大，而且有很多实用的小技巧。【3】遗憾的是，目前市面上还没有一个详细讲解Jupyter Notebook的视频...
基于jupyter notebook的简单爬虫学习记录
2022-04-02 10:49

yoohugh的博客本人为编程小白，目前为零基础入门者，目标为从事数据分析行业，因此努力在往后日子里提升数分能力（软件实操能力、逻辑思考水平）。本文为个人爬虫学习经过，供个人回顾复习用，各版块学习教程均来源于网络（具体后...
使用 Jupyter Notebook 进行网络爬虫
2025-06-16 10:07

Bright Data的博客 Jupyternotebook是一种可共享的文档形态，它将计算机代码、文本描述、数据、图表和交互控件结合在一起。你既可以在本地桌面上运行 Notebook，也可以将其安装在远程服务器上。Jupyter Notebook 以“内核（kernel）”...
Jupyter Notebook折叠输出的内容实例
2020-12-20 10:53

总之，掌握Jupyter Notebook的输出折叠功能以及如何在Python中寻找出现次数超过数组长度一半的元素是提高编程效率的重要技能。通过理解并实践这些技巧，你可以更好地组织和管理你的代码，同时解决问题时更加高效。
jupyter notebook 使用过程中python莫名崩溃的原因及解决方式
2020-09-17 14:08

在使用 Jupyter Notebook 进行数据分析或编程的过程中，有时会遇到 Python 内核突然崩溃的情况，表现为 Jupyter Notebook 的界面卡住或者显示内核已重启等现象。本文将针对这一现象进行详细的探讨，并提出相应的解决...
jupyter notebook的简单介绍以及基本使用
2022-05-11 17:45

jupyter notebook 是一个基于 Web 的交互式计算环境，支持多种编程语言，包括 Python、R、 Julia 等。它可以帮助用户快速构建和分享科学计算结果，具有强大的交互性和可视化能力。安装 jupyter notebook jupyter ...
基于Jupyter Notebook和HTML的web数据挖掘实践设计源码
2024-10-08 18:37

在本项目中，Jupyter Notebook主要用于编写和运行数据挖掘相关的代码，支持包括Python在内的多种编程语言，使得数据处理流程更加清晰。而HTML则广泛应用于网络数据的结构化展示，它作为网页的基础，能够方便地嵌入到...
基于Python和HTML的Jupyter Notebook课程作业设计源码
2024-10-05 06:08

在当今数字化时代，掌握编程技能尤其是Python语言已经成为许多领域专业人士的重要能力。Python作为一种高级编程语言，因其简洁明了的语法和强大的功能而广受欢迎。另一方面，HTML作为构建网页的基础技术，其重要性...
基于Jupyter Notebook的房价分析系统开发源码
2024-10-11 07:50

本项目开发的房价分析系统，利用了数据分析的强大工具——Jupyter Notebook，结合多种编程语言和技术，旨在为用户提供全面的房价分析功能。系统包含242个文件，涉及多种格式和类型，包括但不限于XML配置、Python源码...
如何用Python编写一个简单的爬虫进行数据挖掘(基于Jupyter NoteBook)
2021-04-23 22:57

泽楷学量化的博客如何用Python编写一个简单的爬虫进行数据挖掘(基于Jupyter NoteBook) 引言：该文章将会从极其简略的角度去说明如何搭建一个爬虫对目标数据，有效信息进行挖掘，并且将小编在自学中遇到的一些问题进行引出和附上解决...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月2日

Jupyter Notebook 网站爬虫

问题遇到的现象和发生背景

我想要达到的结果

2条回答 默认 最新

问题事件

2条回答默认最新