在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决

以下是代码：

import json
import requests
import re
import datetime
import csv 
import time
f=open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+'stkcd.csv',mode='w',encoding='gbk',newline='')
writer=csv.writer(f)
head=['stkcd']
writer.writerow(head)
begin=datetime.date(2021,4,1)
end=datetime.date(2021,4,30)
for i in range((end-begin).days+1):
    time.sleep(1)
    searchDate=str(begin + datetime.timedelta(days=i))
    responsel=requests.get(
        'http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback87383849&isPagination=true&pageHelp.pageSize=25&pageHelp.cacheSize=1&type=inParams&sqlId=COMMON_PL_SSGSXX_ZXGG_L&START_DATE=2021-04-01&END_DATE=2021-04-30&SECURITY_CODE=&TITLE=%E5%B9%B4%E6%8A%A5&BULLETIN_TYPE=0101&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.endPage=1&_=1635924801654'
        ,
        headers={'Referer':'http://www.sse.com.cn/disclosure/listedinfo/announcement/'}
    )
    json_str1 = responsel.text[19:-1]
    data1=json.loads(json_str1)
    max_page=data1['pageHelp']['pageCount']+1
    for j in range(1,max_page):
        response=requests.get(
            'http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback87383849&isPagination=true&pageHelp.pageSize=25&pageHelp.cacheSize=1&type=inParams&sqlId=COMMON_PL_SSGSXX_ZXGG_L&START_DATE=2021-04-01&END_DATE=2021-04-30&SECURITY_CODE=&TITLE=%E5%B9%B4%E6%8A%A5&BULLETIN_TYPE=0101&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.endPage=1&_=1635924801654'
        ,
        headers={'Referer':'http://www.sse.com.cn/disclosure/listedinfo/announcement/'}
        )
        json_str=response.text[19:-1]
        data=json.loads(json_str,strict=False)
        for report in data['result']:
            download_url='http://www.sse.com.cn/'+report['URL']
            if re.search('年度报告',report['TITLE'],re.S):
                if re.search('摘要',report['TITLE'],re.S):
                    pass
                else:
                    filename=report['SECURITY_CODE']+report['TITLE']+searchDate+'.pdf'
                    print(filename)
                    writer.writerow([report['SECURITY_CODE']])
                    if re.search('ST',report['TITLE'],re.S):
                        filename=report['SECURITY_CODE']+'-ST'+searchDate+'.pdf'
                        download_url='http://www.sse.com.cn/'+report['URL']
                        resource=requests.get(download_url,stream=True)
                        with open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+filename,'wb') as fd:
                            for y in resource.iter_content(102400):
                                fd.write(y)
                            print(filename,'完成下载')
                    else: 
                        download_url='http://www.sse.com.cn/'+report['URL']
                        resource=requests.get(download_url,stream=True)
                        with open('C:\\Users\\liu\\Desktop\\python\\年报爬取\\连续天数'+filename,'wb') as fd:
                            for y in resource.iter_content(102400):
                                fd.write(y)
                            print(filename,'完成下载')
f.close()

以下是运行后报错的内容：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-11-05 23:02
关注
检查代码中第30行json_str，存在json无法解析的数据，参考一下json.loads的数据结构类似于：jsonData = '{"a":1,"b":2,"c":3,"d":4,"e":5}'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决 json python 有问必答爬虫
2021-11-05 22:54

回答 2 已采纳检查代码中第30行json_str，存在json无法解析的数据，参考一下json.loads的数据结构类似于：jsonData = '{"a":1,"b":2,"c":3,"d":4,"e":5}'
用python做爬虫遇到的问题 python 爬虫
2021-09-11 14:26

回答 2 已采纳
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
Python爬虫时遇到问题： json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) json python 爬虫
2022-07-23 12:09

回答 3 已采纳
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
手把手教你用Python网络爬虫实现上海证券交易所定期报告pdf文件下载（附代码）...
2021-10-04 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤青山隐隐水迢迢，秋尽江南草未凋。大家好，我是皮皮。今天给大家演示...
python 爬虫正则表达式打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
Python爬虫，爬虫访问网站时遇到415. UnsupportedMediaType错误，运行结果为空 python 爬虫
2022-08-22 11:35

回答 3 已采纳
python爬虫学习中遇到的问题 python 爬虫
2023-02-14 11:17

回答 4 已采纳该回答引用ChatGPT根据错误信息，这个问题可能是由于连接超时或网络连接不可用导致的。因此，建议您检查以下几个方面：确保您的网络连接正常并且能够访问请求的地址。确保请求的地址正确且存在，尝试在浏览
人工智能_项目实践_数据抓取_使用python抓取上交所上市公司信息和下载深交所上市公司信息
2022-03-19 10:12

使用python抓取上交所上市公司信息和下载深交所上市公司信息，然后保存到mysql中，并可以从mysql导出到excel。
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
使用Python爬虫获取上交所和深交所所有股票的名称和交易信息
2019-11-23 17:27

神笔小新的博客使用Python爬虫获取上交所和深交所所有股票的名称和交易信息功能描述目标获取上交所和深交所所有股票的名称和交易信息输出保存到文件中技术路线 requests-bs4-re 候选数据网站的选择`` 网易财经：...
python爬虫篇2——爬取深圳证券交易所股票金融数据
2019-12-19 11:27

昕楠的博客 """深圳证券交易所获取指定股票代码公A司基本信息""" class ForumBaseData: result = "" """初始化目标基本信息目标地址""" """code：股票代码""" def __init__(self, code): self.url = ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月5日

悬赏问题

¥15 下图接收小电路，谁知道原理
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探

在用python进行上交所爬虫时遇到这样的问题，请问需要怎么解决

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新