python使用asyncio+aiohttp加载速度过快如何进行限速

import aiohttp
import asyncio
import time
import multiprocessing as mp
import requests
from bs4 import BeautifulSoup
import socket
import re
import pprint
import os
import pymongo

url = 'https://osu.ppy.sh/rankings/mania/performance?page='#+pageNum+'#scores'
page = [1, 5] # 开始页数-结束页数
badRequest = {} # pageNum:resCode
htmls=[]
colls={}
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding':'gb2312,utf-8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Connection':'Keep-alive'
}
#way store in mongoDB : collection: {"_id":"1", "Rank":"1","Player Name":"Jakads","Accuracy":"97.59%","Play Count":""
#"Performance":"17288pp"}

async def getPages(pageNum): #每1秒获取一个页面当做缓存
conn = aiohttp.TCPConnector(limit=4)
global url
#global badRequest
#global htmls
async with aiohttp.ClientSession() as session:
try:
print('开始get网页,pageNum=',pageNum)
async with session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10) as res:
print(url +str(pageNum)+'#scores')
await asyncio.sleep(5)
txt=await res.text()
resCode= res.status
# 如果res不等于200 重试3次
count = 0
#print(res.status_code)
while (resCode != 200 and count <= 3):
res = await session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10)
resCode=res.status
txt=await res.text()
print('restart get')
count += 1
if (resCode == 200):
print(str(pageNum)+' done')
return {str(pageNum):txt}
else:
print('pageNum : ', pageNum, '返回码 : ', resCode)
if(resCode==200):
#print(res.url)
#writez(res.text)
print(str(pageNum) + ' done')
return {str(pageNum):txt}
else:
print( 'pageNum : ', pageNum, '返回码 : ', resCode)
return {str(pageNum):resCode}
except Exception as e:
print(e)
return None

def findTags(html,startNum):
soup = BeautifulSoup(html, features='lxml')
tables = soup.findAll('table')
# print(len(tables))

for t in tables:
    sec = 0 #table顺序
    for tr in t.tbody.findAll('tr'):
        # print('sec:',sec)
        td_sec = 0  #table内顺序
        for td in tr.findAll('td'):
            text = td.get_text().strip()
            # print(len(text))
            if (td_sec == 0):
                dict = {"rank": text}
            elif (td_sec == 1):
                dict.update({"Player Name": text})
            elif (td_sec == 2):
                dict.update({"Accuracy": text})
            elif (td_sec == 3):
                dict.update({"Play Count": text})
            elif (td_sec == 4):
                dict.update({"Performance": text})
            elif (td_sec == 5):
                dict.update({"SS": text})
            elif (td_sec == 6):
                dict.update({"S": text})
            elif (td_sec == 7):
                dict.update({"A": text})
            td_sec += 1 #每一次遍历+1
        colls[str(startNum+sec)] = dict
        sec += 1 #每一个用户+1

def writez(col):#写入文本文件tmp.txt
if os.path.exists('tmp.txt'):
os.remove('tmp.txt')
with open('tmp.txt','a',encoding='utf-8') as f:
for k,v in col.items():
for k2,v2 in v.items():
f.write(k2+" : "+v2+'\n')

def mongoConnection():
conn=pymongo.MongoClient('127.0.0.1',27017)
db=conn.osu
collection=db.rank
return collection

def mongoCreateIndex(connect):
idx_result = connect.create_index([('rank', pymongo.ASCENDING)], unique=True)
return idx_result

def mongoInsert(col,connect):
tmpList = []
for k, v in col.items():
v.update({"_id":k})
tmpList.append(v)
# print('ok')
result = connect.insert_many(tmpList)
return result

def mongoCheckDuplicate(col,connect):
for k,v in col.items():
for k2,v2 in v.items():
dictz={"rank":v2}
result=connect.find_one(dictz)
if(result!=None):
res=connect.delete_one(dictz)
print('check Duplicate ok')

if name=='__main__':

startTime = time.time()

loop=asyncio.get_event_loop()

tasks=[]
results={}

conn=aiohttp.TCPConnector(limit=4)
for pageNum in range(page[0], page[1] + 1):
    tasks.append(asyncio.ensure_future(getPages(pageNum)))

finished=loop.run_until_complete(asyncio.wait(tasks))
loop.close()

for a in finished:
    for b in a:
        if(b.result()!=None):
            for k,v in b.result().items():
                results[str(k)]=str(v)
        #print(b.result())
        #f.write(b.result())
#print('共计完成 ',len(results),'页')


osu = mongoConnection()

startNum=1

#检索分析网页中的Tag
for h in range(page[0], page[1] + 1):
    findTags(results[str(h)], startNum)
    startNum += 50

#重复值鉴定,如果重复就在数据库里删除
mongoCheckDuplicate(colls,osu)

#插入
try:
    res=mongoInsert(colls,osu)
    print('insert res:',res)
except Exception as e:
    print(e)

#创建索引
# try:
#     res=mongoCreateIndex(osu)
#     print('index res:',res)
# except Exception as e:
#     print(e)

print('花费时间 : ', time.time() - startTime, 's')
print('ok')

代码如上,,当我使用session.get()时返回码一直为403，换requests.get()就能正常获取网页..初步怀疑是之前爬的太快了被封号了。。但是为什么用requests还能获取呢?有什么办法限速吗 (我用过await asyncio.sleep(),aiohttp.TCPConnector(limit=4))并没有很好的效果。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-11-21 01:24
关注
session.get用headers=headers是没有加入headers的，我也不知道为什么，session.get的话用update headers的方式就可以了

s=requests.session() s.headers.update(headers) s.get(url=url +str(pageNum)+'#scores',timeout=10)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python异步爬虫实战：使用Playwright与aiohttp高效爬取科技媒体文章
2026-01-02 14:16

Python爬虫项目的博客在当今信息爆炸的时代，科技媒体文章是我们获取最新技术动态、行业趋势和专业知识的重要来源。...本文将介绍如何使用Python最新的异步爬虫技术，结合Playwright和aiohttp，构建一个高效、稳定的科技媒体文章爬虫系统。
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历...
Python爬虫（23）Python爬虫性能飞跃：多线程与异步IO双引擎加速实战（concurrent.futures/aiohttp）
2025-05-10 07:15

一个天蝎座白勺程序猿的博客 Python数据存储实战 CSV文件 Python爬虫（7）Python数据存储实战：CSV文件读写与复杂数据处理指南 Python数据存储实战 JSON文件 Python爬虫（8）Python数据存储实战：JSON文件读写与复杂结构化数据处理指南 Python...
Python爬虫实战：使用最新技术爬取豆瓣电影Top250
2025-06-28 22:19

Python爬虫项目的博客本文将详细介绍如何使用Python最新技术栈爬取豆瓣电影Top250榜单，并保存到本地进行分析。本文详细介绍了如何使用Python最新技术栈爬取豆瓣电影Top250榜单，从基础的同步爬虫到高效的异步实现，再到反爬策略、数据...
Python爬虫实战：使用最新技术爬取新华网新闻数据
2025-07-10 11:59

Python爬虫项目的博客本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。本文详细介绍了如何使用Python最新技术栈构建一个高效、稳定的新华网新闻爬虫系统。我们从基础爬虫开始，逐步添加了代理支持、用户...
Python网络爬虫入门：6个实例掌握数据采集技能
2025-03-14 17:53

WANGWUSAN66的博客 Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着...
Python爬虫图片：从入门到精通
2024-08-17 17:18

正在走向自律的博客 image, args=(url, path)) thread.start() 5.3 异步下载 Python的asyncio库和aiohttp库可以用于异步下载，特别适合I/O密集型任务： import aiohttp import asyncio async def download_image_async(session, url, ...
Python爬虫从入门到精通：一篇涵盖所有细节的高质量教程
2024-05-16 08:02

极客代码的博客本文从Python爬虫的基础知识出发，详细介绍了爬虫原理、常用库、实战案例、注意事项以及优化策略。通过学习本文，读者应该能够全面掌握Python爬虫的原理和实践技巧，为数据采集和处理提供有力支持。在实际应用中，...
Python爬虫性能优终极指南：从并发到分布式，让你的爬虫快如闪电
2025-09-29 10:03

Python爬虫项目的博客通过这种方式，Scrapy可以智能地混合使用普通的快速请求和必要的浏览器渲染请求，在保证数据完整性的前提下，实现性能最大化。我们不仅会阐述理论，更会通过大量可运行的代码示例，手把手带你构建一个高性能的爬虫...
Python爬虫的基础知识、技术实现和实战技巧
2024-11-09 18:04

一个乌的黑团团的博客 2. 解析网页内容提取需要的数据。3. 存储数据以供后续分析或展示。通过这个项目，我们熟悉了...本篇文章介绍了Python爬虫的基本概念、技术栈、实现过程及常见问题的解决方案。通过本次学习，我们已经掌握了如何使用。
没有解决我的问题, 去提问

python使用asyncio+aiohttp加载速度过快 如何进行限速

1条回答 默认 最新

python使用asyncio+aiohttp加载速度过快如何进行限速

1条回答默认最新