python使用asyncio+aiohttp加载速度过快 如何进行限速

import aiohttp
import asyncio
import time
import multiprocessing as mp
import requests
from bs4 import BeautifulSoup
import socket
import re
import pprint
import os
import pymongo

url = 'https://osu.ppy.sh/rankings/mania/performance?page='#+pageNum+'#scores'
page = [1, 5] # 开始页数-结束页数
badRequest = {} # pageNum:resCode
htmls=[]
colls={}
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding':'gb2312,utf-8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Connection':'Keep-alive'
}
#way store in mongoDB : collection: {"_id":"1", "Rank":"1","Player Name":"Jakads","Accuracy":"97.59%","Play Count":""
#"Performance":"17288pp"}

async def getPages(pageNum): #每1秒获取一个页面当做缓存
conn = aiohttp.TCPConnector(limit=4)
global url
#global badRequest
#global htmls
async with aiohttp.ClientSession() as session:
try:
print('开始get网页,pageNum=',pageNum)
async with session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10) as res:
print(url +str(pageNum)+'#scores')
await asyncio.sleep(5)
txt=await res.text()
resCode= res.status
# 如果res不等于200 重试3次
count = 0
#print(res.status_code)
while (resCode != 200 and count <= 3):
res = await session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10)
resCode=res.status
txt=await res.text()
print('restart get')
count += 1
if (resCode == 200):
print(str(pageNum)+' done')
return {str(pageNum):txt}
else:
print('pageNum : ', pageNum, '返回码 : ', resCode)
if(resCode==200):
#print(res.url)
#writez(res.text)
print(str(pageNum) + ' done')
return {str(pageNum):txt}
else:
print( 'pageNum : ', pageNum, '返回码 : ', resCode)
return {str(pageNum):resCode}
except Exception as e:
print(e)
return None

def findTags(html,startNum):
soup = BeautifulSoup(html, features='lxml')
tables = soup.findAll('table')
# print(len(tables))

for t in tables:
    sec = 0 #table顺序
    for tr in t.tbody.findAll('tr'):
        # print('sec:',sec)
        td_sec = 0  #table内顺序
        for td in tr.findAll('td'):
            text = td.get_text().strip()
            # print(len(text))
            if (td_sec == 0):
                dict = {"rank": text}
            elif (td_sec == 1):
                dict.update({"Player Name": text})
            elif (td_sec == 2):
                dict.update({"Accuracy": text})
            elif (td_sec == 3):
                dict.update({"Play Count": text})
            elif (td_sec == 4):
                dict.update({"Performance": text})
            elif (td_sec == 5):
                dict.update({"SS": text})
            elif (td_sec == 6):
                dict.update({"S": text})
            elif (td_sec == 7):
                dict.update({"A": text})
            td_sec += 1 #每一次遍历+1
        colls[str(startNum+sec)] = dict
        sec += 1 #每一个用户+1

def writez(col):#写入文本文件tmp.txt
if os.path.exists('tmp.txt'):
os.remove('tmp.txt')
with open('tmp.txt','a',encoding='utf-8') as f:
for k,v in col.items():
for k2,v2 in v.items():
f.write(k2+" : "+v2+'\n')

def mongoConnection():
conn=pymongo.MongoClient('127.0.0.1',27017)
db=conn.osu
collection=db.rank
return collection

def mongoCreateIndex(connect):
idx_result = connect.create_index([('rank', pymongo.ASCENDING)], unique=True)
return idx_result

def mongoInsert(col,connect):
tmpList = []
for k, v in col.items():
v.update({"_id":k})
tmpList.append(v)
# print('ok')
result = connect.insert_many(tmpList)
return result

def mongoCheckDuplicate(col,connect):
for k,v in col.items():
for k2,v2 in v.items():
dictz={"rank":v2}
result=connect.find_one(dictz)
if(result!=None):
res=connect.delete_one(dictz)
print('check Duplicate ok')

if name=='__main__':

startTime = time.time()

loop=asyncio.get_event_loop()

tasks=[]
results={}

conn=aiohttp.TCPConnector(limit=4)
for pageNum in range(page[0], page[1] + 1):
    tasks.append(asyncio.ensure_future(getPages(pageNum)))

finished=loop.run_until_complete(asyncio.wait(tasks))
loop.close()

for a in finished:
    for b in a:
        if(b.result()!=None):
            for k,v in b.result().items():
                results[str(k)]=str(v)
        #print(b.result())
        #f.write(b.result())
#print('共计完成 ',len(results),'页')


osu = mongoConnection()

startNum=1

#检索分析网页中的Tag
for h in range(page[0], page[1] + 1):
    findTags(results[str(h)], startNum)
    startNum += 50

#重复值鉴定,如果重复就在数据库里删除
mongoCheckDuplicate(colls,osu)

#插入
try:
    res=mongoInsert(colls,osu)
    print('insert res:',res)
except Exception as e:
    print(e)

#创建索引
# try:
#     res=mongoCreateIndex(osu)
#     print('index res:',res)
# except Exception as e:
#     print(e)

print('花费时间 : ', time.time() - startTime, 's')
print('ok')

代码如上,,当我使用session.get()时返回码一直为403,换requests.get()就能正常获取网页..初步怀疑是之前爬的太快了被封号了。。但是为什么用requests还能获取呢?有什么办法限速吗 (我用过await asyncio.sleep(),aiohttp.TCPConnector(limit=4))并没有很好的效果。

1个回答

session.get用headers=headers是没有加入headers的,我也不知道为什么,session.get的话用update headers的方式就可以了


s=requests.session()
s.headers.update(headers)
s.get(url=url +str(pageNum)+'#scores',timeout=10)
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python使用asyncio+aiohttp加载速度过快 如何进行限速
-
使用python3的asyncio写的网页不显示,会直接变成下载文件,是什么原因?
-
python-aiohttp 怎么获取响应时间?
-
python使用scatter绘制散点图,如何一次绘制多组?
-
为什么python使用ctypes无法加载qt生成的dll?
-
python 在子线程中开启websever(使用aiohttp)linux系统下报错 set_wakeup_fd only works in main thread
-
python flask 如何文件限速传输
-
Python使用Selenium时,在不关闭重新加载浏览器的情况下换带账号密码验证的代理
-
python2.7下使用smtplib模块发送邮件,报错
-
请问如何用python实现PC端QQ的基本功能?可以用爬虫来爬取网页版QQ吗?
-
python的selenium如何等待整个页面加载完成
-
关于在java代码中调用Python代码的问题?
-
求问python for everyone(python程序设计Horstmann)第二版习题答案
-
如何利用python selenium 判断某个网页是否加载完毕
-
python2有easy_install 但是却无法使用是怎么回事?
-
python代码问题 for in
-
这是一个关于python面向对象的问题
-
python如何操作HDFS读取Mapfile 文件
-
报错aiohttp.client_exceptions.ClientProxyConnectionError: Cannot connect to host 117.57.90.155:9999 ssl:default [Connect call failed ('117.57.90.155', 9999)]
-
Python 使用 jumpssh 通过 jumpserver(跳板机/堡垒机) 连接目标服务器,发送命令
-
程序员实用工具网站
目录 1、搜索引擎 2、PPT 3、图片操作 4、文件共享 5、应届生招聘 6、程序员面试题库 7、办公、开发软件 8、高清图片、视频素材网站 9、项目开源 10、在线工具宝典大全 程序员开发需要具备良好的信息检索能力,为了备忘(收藏夹真是满了),将开发过程中常用的网站进行整理。 1、搜索引擎 1.1、秘迹搜索 一款无敌有良心、无敌安全的搜索引擎,不会收集私人信息,保...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
1行Python代码制作动态二维码
目录 1、普通二维码 2、艺术二维码 3、动态二维码 在GitHub上发现了一个比较有意思的项目,只需要一行Python代码就可以快捷方便生成普通二维码、艺术二维码(黑白/彩色)和动态GIF二维码。 GitHub网站参见:https://github.com/sylnsfar/qrcode 用法比较简单,直接通过pip安装即可。 pip3 install myqr 安装过程如下所...
全球最厉害的 14 位程序员!
来源 | ITWorld 整理自网络全球最厉害的 14 位程序员是谁?今天就让我们一起来了解一下吧,排名不分先后。01. Jon Skeet个人名望:程序技术问答网站 S...
从入门到精通,Java学习路线导航
引言 最近也有很多人来向我"请教",他们大都是一些刚入门的新手,还不了解这个行业,也不知道从何学起,开始的时候非常迷茫,实在是每天回复很多人也很麻烦,所以在这里统一作个回复吧。 Java学习路线 当然,这里我只是说Java学习路线,因为自己就是学Java的,对Java理当很熟悉,对于其它方面,我也不是很了解。 基础阶段 首先是基础阶段,在基础阶段,我们必须掌握Java基础,Mysql数据库,Ora...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
别再翻了,面试二叉树看这 11 个就够了~
写在前边 数据结构与算法: 不知道你有没有这种困惑,虽然刷了很多算法题,当我去面试的时候,面试官让你手写一个算法,可能你对此算法很熟悉,知道实现思路,但是总是不知道该在什么地方写,而且很多边界条件想不全面,一紧张,代码写的乱七八糟。如果遇到没有做过的算法题,思路也不知道从何寻找。面试吃了亏之后,我就慢慢的做出总结,开始分类的把数据结构所有的题型和解题思路每周刷题做出的系统性总结写在了 Github...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
什么是大公司病(太形象了)
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 南之鱼来源 | 芝麻观点(chinamkt)所谓大企业病,一般都具有机构臃肿、多重...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
离职了
这是我毕业后的第一份工作...面试时,HR小姐姐告诉我... 然鹅...我入职之后才发现:对标阿里的只有加班强度对标华为的只有狼性文化对标百度的,额,没有对...
iPhone 11 引领芯片新革命?
iPhone 11中的U1芯片开启了超宽带革命。 作者|Jason Snell 译者 |弯月,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 以下为译文: 苹果很喜欢讨论他们为iPhone设计的芯片,却不愿泄露任何尚未发布产品的消息。新的U1芯片正是如此,该芯片随着iPhone 11一起发布,但在近日的iPhone发布会上苹果却对该芯片只字未提。U1中嵌入了新...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
失业42天,我废了
作者:子彧师兄https://www.jianshu.com/p/62590c1339f12019.6.5这天下午,公司以资金困难,亏损较大为理由将我们整个技术部裁掉,我...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
8000字干货:那些很厉害的人是怎么构建知识体系的
本文约8000字,正常阅读需要15~20分钟。读完本文可以获得如下收益: 分辨知识和知识体系的差别 理解如何用八大问发现知识的连接点; 掌握致用类知识体系的构建方法; 能够应用甜蜜区模型找到特定领域来构建知识体系。 1. 知识体系?有必要吗? 小张准备通过跑步锻炼身体,可因为之前听说过小腿变粗、膝盖受伤、猝死等等与跑步有关的意外状况,有点担心自己会掉进各种坑里,就在微信上问朋友圈一直晒跑步...
分布式、多线程、高并发都不懂,拿什么去跳槽
当提起这三个词的时候,是不是很多人都认为分布式=高并发=多线程?当面试官问到高并发系统可以采用哪些手段来解决,或者被问到分布式系统如何解决一致性的问题,是不是一脸懵逼?确...
nginx学习,看这一篇就够了:下载、安装。使用:正向代理、反向代理、负载均衡。常用命令和配置文件
文章目录前言一、nginx简介1. 什么是 nginx 和可以做什么事情2.Nginx 作为 web 服务器3. 正向代理4. 反向代理5. 动静分离6.动静分离二、Nginx 的安装三、 Nginx 的常用命令和配置文件四、 Nginx 配置实例 1 反向代理五、 Nginx 配置实例 2 负载均衡六、 Nginx 配置实例 3 动静分离七、 Nginx 的高可用集群 前言 一、nginx简介...
动画:用动画给面试官解释 TCP 三次握手过程
作者 | 小鹿 来源 | 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对于一个初学者来说。 学习导图 一、TCP 是什么? TCP(Transmissio...
相关热词 c# 增加元素 c#控制台简单加法 c# 服务端框架 c# 判断事件是否注册 c#中is和has c# udp 连接超时 c#词典 c#实现排列组合 c# oss 上传 c#判断输入的是否为ip