刚学习爬虫，出现很多报错？


from typing import Any, Union

import requests
from bs4 import BeautifulSoup
import time
import random
def get_html(url, soup):#获取html
    header = {
        "User - Agent: Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 92.0.4515.107Safari / 537.36Edg / 92.0.902.55"}
    html = requests.get(url, headers=header).content
    try:
        html = requests.get(url,timeout = 5)
        soup = BeautifulSoup(html.content,'html.parser') #解析
 #       soup1 = soup.prettify()
  #      print(soup1)
        return soup
    except Exception as e:
        pass 

def xlfirstline(soup)
    get_line = []
    get_jc_a = soup.find_all('div',class_='jc_a')
    get_tr = get_jc_a.find_all('tr')
    tr = get_tr.find_all('th')
    for each_th in tr:
        th = each_th.get_text
        get_line.append(th)
    return get_line
    
def get_content(soup):
    get_result = []
    get_jc_a = soup.find('div',class_='jc_a')
    tr = get_jc_a.find_all('td')
    for each_td in tr:
        td = each_td.get_text()
        get_result.append(td)  
    return get_result
    
def prt_ret(get_result):    
    with open(r'C:\Users\DELL\Desktop\国家社科基金项目数据库.txt','a') as f:
        while get_result:
            for i in range(20):         
                f.write(get_result.pop(0) + '\t')
            f.write('\n')
    
def main():
    url = 'http://fz.people.com.cn/skygb/sk/index.php/Index/index?&p=1' 
    soup = get_html(url, None)
    xlfirstline(soup)
    get_line = xlfirstline(soup)
    prt_ret(get_line)
    for i in range(3):
        wait_time: Union[int, Any] = random.randint(3,10)
        time.sleep(wait_time)
        url = 'http://fz.people.com.cn/skygb/sk/index.php/Index/index?&p=' + str(i + 1)
        soup = get_html(url, None)
        get_result = get_content(soup)
        prt_ret(get_result)


if __name__ == "__main__":
    main()

line 67, in
main()
line 53, in main
soup = get_html(url, None)
line 11, in get_html
html = requests.get(url, headers=header).content
line 75, in get
return request('get', url, params=params, **kwargs)
line 61, in request
return session.request(method=method, url=url, **kwargs)
line 528, in request
prep = self.prepare_request(req)
line 456, in prepare_request
p.prepare(
line 317, in prepare
self.prepare_headers(headers)
line 449, in prepare_headers
for header in headers.items():
AttributeError: 'set' object has no attribute 'items'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zhu6201976 博客专家认证 2021-07-26 16:17
关注
你的headers写成了set 应该是dict 检查下

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

刚学习爬虫，出现很多报错？ python
2021-07-26 12:03

回答 2 已采纳你的headers写成了set 应该是dict 检查下
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
python爬虫常见报错_python爬虫入门常见错误集合
2020-11-28 12:43

weixin_39911998的博客在入门爬虫的时候遇到不少问题，和不是唯一的解决方法的方法，总结整理一下，供大家学习交流。syntaxerror: invalid syntax语法错误：无效语法syntaxerror: unexpected EOF while parsing语法错误：多了无法解析的...
爬虫中MySQL存储pymysql.connect报错 mysql python 爬虫
2021-08-22 21:56

回答 2 已采纳 conn = pymysql.connect(host="localhost", db="test",
爬虫代理池中proxypool.方法/函数报错 python 爬虫
2021-08-19 19:34

回答 1 已采纳看老催的书，我们就是朋友。我是看他的视频入门的。那个代理池我改过，你这个属于模块导入错误，找一下就好了，有帮助记得采纳哦
用pdfplumber爬取pdf里面的表格，结果没报错，但是出现了很多的None，该怎么办 python 有问必答爬虫
2021-12-02 12:13

回答 2 已采纳你加个判断，如 if table[i][j] != None: pass
python爬虫运行正常最后报错_python 爬虫一招解决SSl 报错SSLError
2020-12-06 11:03

weixin_39883670的博客摘要用python写爬虫的时候没我们经常遇到https认证的网站，采用常用模块requests模块，我们一般在请求中将verify设置成假，免证书验证，但是这些都是理想状态，https请求很容易报错，一旦报错就难以解决。...
爬虫报错，刷新过于频繁。不知如何解决。 python selenium
2021-10-23 09:38

回答 1 已采纳错误的信息大概意思是：你要点击的元素没有被挂载在dom树中(页面上)大概看了一下你的代码：首先这个问题是因为你在切换窗口后，没有切换回到起始的窗口。elements = driver.find_ele
python爬虫怎么保存最后一条得到的信息 python
2022-08-09 22:00

回答 2 已采纳容易因为网络问题报错停止？这是被反扒了吧？设置代理试试。像这种你只需要知道程序报错停止的时候的最后一条信息。那你try语句输出这个消息不就好咧？
写多任务异步协程出了点问题，但报错信息很不对劲 python
2022-08-15 22:40

回答 2 已采纳将进程分离关了或者重启pycharm
python爬虫常见报错_python爬虫：常见HTTPError异常
2020-11-28 12:43

weixin_39849671的博客我们学习Python的过程中总是遇到很多难题，最常见的比如IP限制，我们学会通过使用代理IP来解决，其他情况下也会存在很多异常或者麻烦，需要大家耐心学习，今天就讲解下常见的HTTPError异常。100：继续客户端应当...
改了好几次的代码，一直没有成功，如何解决？(语言-python) python 爬虫
2022-08-04 12:43

回答 4 已采纳解决方法获取到的数据是需要解码的：gb2312解码。所以， 1、上面的几行代码修改为：```import requestsimport re headers = { "User-Agent":
python爬虫代码运行之后不报错也没有结果_看完！一小时带你入门Python爬虫
2020-12-14 13:03

weixin_39615643的博客一、什么叫爬虫爬虫，又名“网络爬虫”，就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度...打个比方吧：企业A建了个用户论坛，很多用户在论坛上留言讲自己的使用体验等等。现在A...
Python爬虫详解（一看就懂）
2022-06-21 22:07

练习时长两年半的Programmer的博客爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。如果要获取网络上数据，我们要给爬虫一个网址（程序中通常叫URL），爬虫发送一个HTTP请求给目标网页的服务器，服务器返回数据给客户端（也就是我们的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月26日

悬赏问题

¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复

刚学习爬虫，出现很多报错？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新