在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决

以下是代码：

import json
import requests
import re
import datetime
import csv 
import time
f=open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+'stkcd.csv',mode='w',encoding='gbk',newline='')
writer=csv.writer(f)
head=['stkcd']
writer.writerow(head)
begin=datetime.date(2021,4,1)
end=datetime.date(2021,4,30)
for i in range((end-begin).days+1):
    time.sleep(1)
    searchDate=str(begin + datetime.timedelta(days=i))
    responsel=requests.get(
        'http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback87383849&isPagination=true&pageHelp.pageSize=25&pageHelp.cacheSize=1&type=inParams&sqlId=COMMON_PL_SSGSXX_ZXGG_L&START_DATE=2021-04-01&END_DATE=2021-04-30&SECURITY_CODE=&TITLE=%E5%B9%B4%E6%8A%A5&BULLETIN_TYPE=0101&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.endPage=1&_=1635924801654'
        ,
        headers={'Referer':'http://www.sse.com.cn/disclosure/listedinfo/announcement/'}
    )
    json_str1 = responsel.text[19:-1]
    data1=json.loads(json_str1)
    max_page=data1['pageHelp']['pageCount']+1
    for j in range(1,max_page):
        response=requests.get(
            'http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback87383849&isPagination=true&pageHelp.pageSize=25&pageHelp.cacheSize=1&type=inParams&sqlId=COMMON_PL_SSGSXX_ZXGG_L&START_DATE=2021-04-01&END_DATE=2021-04-30&SECURITY_CODE=&TITLE=%E5%B9%B4%E6%8A%A5&BULLETIN_TYPE=0101&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.endPage=1&_=1635924801654'
        ,
        headers={'Referer':'http://www.sse.com.cn/disclosure/listedinfo/announcement/'}
        )
        json_str=response.text[19:-1]
        data=json.loads(json_str,strict=False)
        for report in data['result']:
            download_url='http://www.sse.com.cn/'+report['URL']
            if re.search('年度报告',report['TITLE'],re.S):
                if re.search('摘要',report['TITLE'],re.S):
                    pass
                else:
                    filename=report['SECURITY_CODE']+report['TITLE']+searchDate+'.pdf'
                    print(filename)
                    writer.writerow([report['SECURITY_CODE']])
                    if re.search('ST',report['TITLE'],re.S):
                        filename=report['SECURITY_CODE']+'-ST'+searchDate+'.pdf'
                        download_url='http://www.sse.com.cn/'+report['URL']
                        resource=requests.get(download_url,stream=True)
                        with open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+filename,'wb') as fd:
                            for y in resource.iter_content(102400):
                                fd.write(y)
                            print(filename,'完成下载')
                    else: 
                        download_url='http://www.sse.com.cn/'+report['URL']
                        resource=requests.get(download_url,stream=True)
                        with open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+filename,'wb') as fd:
                            for y in resource.iter_content(102400):
                                fd.write(y)
                            print(filename,'完成下载')
f.close()

以下是运行后报错的内容：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-11-05 23:02
关注
检查代码中第30行json_str，存在json无法解析的数据，参考一下json.loads的数据结构类似于：jsonData = '{"a":1,"b":2,"c":3,"d":4,"e":5}'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python爬虫实战：基于Scrapy+Playwright动态爬取上海证券交易所数据
2025-07-14 00:59

Python爬虫项目的博客本文将详细介绍如何使用Python最新技术栈（Scrapy框架结合Playwright）来构建一个高效、稳定的上海证券交易所数据爬虫。python复制下载# items.pycode = scrapy.Field() # 股票代码name = scrapy.Field() # 公司名称...
人工智能_项目实践_数据抓取_使用python抓取上交所上市公司信息和下载深交所上市公司信息
2022-03-19 10:12

在本项目实践中，我们主要探讨了如何利用Python进行数据抓取，特别关注了从上海证券交易所（简称上交所）和深圳证券交易所（简称深交所）获取上市公司信息。这些信息对于金融分析、投资决策以及市场研究至关重要。...
python爬虫：下载上海证券交易所的最新的公告PDF
2024-10-15 16:35

MonkeyKing.sun的博客使用Selenium可以解决动态加载的内容问题，并且通过这种方式，你可以抓取到包含PDF链接的完整网页内容。如果网页确实是动态生成的，那么这种方法应该可以帮助你成功获取PDF文件的链接。
使用Python检索上海证券交易所上市公司的信息，下载深圳证券交易所的上市公司
2024-10-18 21:09

在这个项目中，首先需要定位到上海证券交易所和深圳证券交易所的官方网站或相关数据接口，通过编写网络爬虫程序来抓取上市公司数据。网络爬虫程序通常会从网页中解析出所需的数据，如公司名称、代码、行业分类、...
手把手教你用Python网络爬虫实现上海证券交易所定期报告pdf文件下载（附代码）...
2021-10-04 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤青山隐隐水迢迢，秋尽江南草未凋。大家好，我是皮皮。今天给大家演示...
Python实战项目：爬取上交所和深交所所有股票的名称和交易信息.zip
2024-03-05 21:07

Python实战项目：爬取上交所和深交所所有股票的名称和交易信息。功能简介目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests--bs4--re 原理分析步骤1：从东方财富网获取...
【python 爬虫】下载上海证交所公告文件
2025-06-25 09:24

景元元大猫猫的博客本文介绍了一个基于Selenium的上交所公告爬虫系统。系统采用模块化设计，主要功能包括：1) 使用Selenium模拟交互操作，处理日期选择器等复杂控件；2) 实现可靠的元素定位和高亮机制；3) 支持多级容错的文件下载功能...
2024年Python最新python爬虫爬取深交所数据(1)
2024-05-01 09:07

2401_84584682的博客 ,‘/’))’,‘/’))’,‘/’))’,‘/’))’,‘/’)))sheet = book.add_sheet(‘深交所基金市场概况’,cell_overwrite_ok=True)学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。...
python爬虫爬取深交所数据
2024-04-21 14:12

2401_83641360的博客 row4 = data2[3] row41 = row4[‘lbmc’] row42 = row4[‘zqsl’] row43 = row4[‘zgb’] row44 = row4[‘sjzz’] row45 = row4[‘cjje’] ROW4.append(row41[-5:]) 自我介绍一下，小编13年上海交大毕业，曾经在小...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月5日

在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决

2条回答 默认 最新

问题事件

2条回答默认最新