爬虫为什么没有文件下载

import requests
import re
import time
from selenium import webdriver

# 设置请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

# 使用 Selenium 打开网页
browser = webdriver.Chrome()
url = 'http://www.sse.com.cn/disclosure/credibility/supervision/inquiries/'
browser.get(url)
time.sleep(10)  # 必须要加10秒的延迟，因为有个刷新的动作需要等待一段时间

# 获取页面源码
data = browser.page_source

# 修改正则表达式
p_title = '<td><a href=".*?" target="_blank">(.*?)</a></td>'
p_href = '<td><a href="(.*?)" target="_blank">.*?</a></td>'

# 获取标题和链接
title = re.findall(p_title, data, re.S)
href = re.findall(p_href, data, re.S)

# 循环下载文件
for i in range(len(href)):
    print("正在下载文件：", title[i])
    url = href[i]
    res = requests.get(url, headers=headers)
    file_name = './上交所问询函/' + title[i] + '.pdf'
    with open(file_name, 'wb') as file:
        file.write(res.content)
    print("下载完成：", title[i])

browser.quit()  # 关闭浏览器

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

cjh4312 2024-05-09 12:32

关注

使用api接口


import pandas as pd
import requests

headers = {
    'Referer': 'https://www.sse.com.cn/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36',
}

params = {
    'jsonCallBack': '',
    'isPagination': 'true',
    'pageHelp.pageSize': '100',
    'pageHelp.pageNo': '1',
    'pageHelp.beginPage': '1',
    'pageHelp.cacheSize': '1',
    'pageHelp.endPage': '1',
    'sqlId': 'BS_KCB_GGLL',
    'siteId': '28',
    'channelId': '10743,10744,10012',
    'type': '',
    'stockcode': '',
    'extGGDL': '',
    'createTime': '',
    'createTimeEnd': '',
    'order': 'createTime|desc,stockcode|asc',
    '_': '1715227724607',
}

response = requests.get('https://query.sse.com.cn/commonSoaQuery.do', params=params, headers=headers)
dd=pd.DataFrame(response.json()['result'])
for i in range(len(dd)):
    print(dd.loc[i,'extGSJC'],dd.loc[i,'docURL'])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
爬虫为什么常用Python语言？
2024-06-29 11:23

凯森森讲Python的博客你是不是也想知道，为什么爬虫非要用python？其他的编程语言不行吗？其实不同的编程语言都可以写爬虫，只是有些语言更适合于某些场合和目的。在这篇文章中，从性能、难度、功能、风险等方面来比较几种常见的编程语言...
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 14:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
python爬虫学习文档，包含爬虫基础，加密算法，并发编程，逆向等
2024-01-18 10:28

这份"python爬虫学习文档"涵盖了多个关键领域，包括爬虫基础、加密算法、并发编程以及安卓逆向，旨在帮助学习者全面掌握爬虫相关的高级技能。首先，让我们深入探讨**爬虫基础**。爬虫基础是所有爬虫学习者的起点，...
并发编程在爬虫中的应用.md
2024-04-20 08:13

标签中提到的“编程语言 爬虫并发编程在爬虫中的应用”，这意味着我们要讨论的内容涉及编程语言的并发模型，以及如何将并发模型应用于爬虫开发中。从提供的部分文件内容中，我们可以提取出以下知识点： 1. 并发...
python爬虫批量下载zabbix文档代码实例
2020-09-18 19:07

本篇文档重点介绍了使用Python编程语言通过爬虫技术批量下载Zabbix文档的代码实例。其中涉及到了Python编程语言的基础语法、爬虫开发、网络请求处理、正则表达式应用、文件名处理以及文件保存等多个方面的知识点。 ...
【Go语言爬虫】为什么要用Go语言写爬虫？
2025-11-05 19:32

数据知道的博客 Go爬虫的核心优势，总结概述如下：极致并发：Goroutines和Channels提供了无与伦比的并发性能和编程模型。高性能：编译型语言，运行速度快，内存占用低。部署简单：编译成无依赖的二进制文件，跨平台部署极其方便...
Python快乐编程-网络爬虫
2024-01-26 10:43

在Python的世界里，网络爬虫是一项非常有趣且实用的技术，它允许我们自动化地从互联网上抓取大量数据，为数据分析、信息检索等提供强大的支持。本主题“Python快乐编程——网络爬虫”将深入探讨如何利用Python进行...
Python 爬虫编程从入门到实践
2024-03-11 13:42

Python编程语言以其简洁明了的语法和强大的功能在IT领域，特别是网络爬虫技术中，占据了重要的地位。本文将深入探讨Python爬虫编程的基础知识，从入门到实践，帮助初学者掌握这一技能。首先，我们要了解什么是网络...
爬虫（Web Scraper）是一种自动化工具，用于从网页中抓取数据 Python 是一种常用的编程语言，因其简洁的语法和强大的
2024-09-13 11:34

Python因为其简洁的语法和强大的库支持，成为了开发爬虫的热门编程语言。编写爬虫通常需要掌握网络请求、HTML解析、数据存储等多方面的技术。本文将详细介绍如何使用Python编写简单的爬虫代码，并且提供了一个模拟...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月9日

爬虫为什么没有文件下载

3条回答 默认 最新

问题事件

3条回答默认最新