httpx异步爬取网页时，只有部分爬取成功的问题

我用httpx写了一个异步爬虫。我在代码中指定了9个url，按道理 getDomain 会被执行9次。但是程序运行时发现getDomain只会执行1到3次，其他几次根本没有调用getDomain。麻烦大家看看是什么原因导致的？应该不是目标网站屏蔽的问题。


import json
import traceback
import httpx
from datetime import datetime
import time
import re
import asyncio
from httpx import AsyncHTTPTransport,  Cookies


cookies =""
async def loginWest(client:httpx.AsyncClient):
    headers = {
        #'content-length': '100',
        'cache-control': 'max-age=0',
        'sec-ch-ua': '"Chromium";v="112", "Google Chrome";v="112", "Not:A-Brand";v="99"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'upgrade-insecure-requests': '1',
        'content-type': 'application/x-www-form-urlencoded',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-user': '?1',
        'sec-fetch-dest': 'document',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9'
    }
    payload = 'u_name=tylrr1&u_password=123qwe&adds323sdsdsad=3546234134sadsa233&back_path2=&m=&module=enterzone'
    response0 = await client.post("https://www.xxxxx.cn/login.asp", headers=headers, data=payload ,follow_redirects=True)

    #print(response0.status_code)
    #print(response0.content.decode("gbk"))
    if "1902326" in response0.content.decode("gbk") :
        print("登录成功")
    print(response0.cookies)
    #return response0.cookies


async def getDomain(page:int ,client:httpx.AsyncClient):
    headers = {
        'sec-ch-ua': '"Chromium";v="112", "Google Chrome";v="112", "Not:A-Brand";v="99"',
        'accept': 'application/json, text/plain, */*',
        'content-type': 'application/x-www-form-urlencoded;charset=UTF-8',
        'x-requested-with': 'XMLHttpRequest',
        'sec-ch-ua-mobile': '?0',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
         }

    payload = f'domeq=&domkey=&domeq1=&domkey1=&domuneq=&domunkey=&domuneq1=&domunkey1=&domlen1=&domlen2=&topmoney=&topmoneymax=&price=&pricemax=&expday=&expdaymax=&arrdomext=&domclass=&domleiab=&deldate=&regyear=&regyearmax=&freeyd=0&deltype=&ordby=deldate&ordtp=&sogoupr=&sogouprmax=&baidupr=&baiduprmax=&sgsoulu=&sgsoulumax=&bdsoulu=&bdsoulumax=&bdfanlian=&bdfanlianmax=&wailian=&wailianmax=&sitehis=&sitehismax=&siteinfohis=&siteinfohismax=&bdrenzheng=&wxcheck=&qqcheck=&wallcheck=&bdpingjia=&ismiiban=&guonei=&linktype=&isqy=&viewcount=&sitetitle=&icpwzmc=&haveuser=&isbid=&pageno={page}&pagesize=1000&mode=wedel'

    try:
        response0 = await client.post("https://www.xxxx.cn/services/newlist.asp",
                                 headers=headers, data=payload  )
        #print(client.headers)
        if response0.status_code == 200:
            jsonstr = json.loads(response0.text.replace('\\', '\\\\'))
            if jsonstr['code'] == 200:
                print("获取列表成功")
                total = jsonstr['body']['total']
                page = jsonstr['body']['pageno']
                itemJson = jsonstr['body']['items']
                print({"total": total, "page": page})
                return {"total": total, "page": page, "itemJson": itemJson}
            else:
                print("获取列表失败:",jsonstr)
                pass
        else:
            print("获取列表失败:",response0.status_code)
    except Exception as e:
        print(e)
        pass



async def main():
    results = []
    client = httpx.AsyncClient()
    global cookies
    if cookies == "":
        cookies = await loginWest(client)
        #await asyncio.sleep(1)
        print(cookies)

    tasks = []
    for i in range(1, 10):
        # 添加一个协程到列表中
        tasks.append(asyncio.ensure_future(getDomain(i, client)))
    print(tasks)
    results = await asyncio.gather(*tasks)



    # 检查响应状态码
    for task in tasks :
        response = task.result()
        #print(response)
        #res = await getDomain(i, client=client)
        #results.append(res)
        #await asyncio.sleep(1)

    print(f"本次任务共{len(results)}页")
    for item in results:
        print(str(item)[:120])
        #saveData(item)
    await asyncio.sleep(60)
    print("任务完成")


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

#运行输出结果如下：

获取列表成功
{'total': 2030589, 'page': 1}

本次任务共9页
{'total': 2030589, 'page': 1, 'itemJson': [{'refsmoney': 0, 'domext': 'online', 'domain':
None
None
None
None
None
None
None
None
任务完成

#上面的任务中，只有1个url完成，其他都显示了None。不知道什么原因

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
tylrr 2023-07-14 23:31
关注
有大佬指点一下吗？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python如何用httpx实现异步爬虫加速采集
2022-08-12 09:39

晴南标书制作的博客当需要爬取的数量增多的时候，使用python的requests库写爬虫会出现时间很长的情况，所以我们今天用httpx库的异步请求来加速爬取，单机爬虫实现分布式爬虫的速度。
在 Python 中使用 HTTPX 进行网页抓取
2025-05-09 07:45

Bright Data的博客 q=0.3"# 携带自定义请求头发起 GET 请求# 处理响应...User-Agent是网页抓取中最重要的请求头之一。HTTPX 默认的User-Agent此标识很可能会让目标网站识别到你的请求是自动化脚本，从而导致封禁。可以将User-Agent# ...
Python习题 183：异步爬取豆瓣TOP250电影
2024-09-15 00:15

花花 Show Python的博客（编码题）利用的 Python（建议使用版本 Python 3.11+）的异步机制批量获取豆瓣TOP250电影的电影（电影的标题），并用同步代码和异步代码进行比较。
Python3.10 异步编程 asyncio request异步爬取
2022-06-11 17:27

O丶ne丨柒夜的博客如果我们希望一个代码能够并发执行，有这几种方式，多进程，多线程和协程，它们在 Python 中分别对应了 multiprocessing， threading 和 asyncio 库，在历史上，进程曾是大部分分时系统中程序运行的基本单位，...
Python httpx详解：新一代HTTP客户端的极致体验
2025-07-04 14:01

detayun的博客本文介绍了新一代Python...对比分析表明，httpx在异步支持、协议兼容性和性能方面优于requests，特别适合高并发场景。最后，通过爬虫和API调用案例，展示了httpx在实际开发中的优势。作为现代Python开发的强大工具，htt
搜索引擎爬虫开发：如何实现异步爬取
2025-05-09 00:58

AI 搜索引擎技术的博客本文旨在解决传统同步爬虫在大规模数据采集场景下的性能瓶颈问题，系统阐述异步爬取技术的实现原理、核心算法和工程实践方法。内容覆盖从基础概念到复杂系统设计的全流程，包括异步IO模型、协程调度、网络请求优化、...
Python爬取B站404漫画[项目源码]
2025-11-17 08:37

异步爬虫利用了Python的异步特性，可以在等待网络响应的同时，继续执行后续的代码，而不会像同步请求那样阻塞等待，这对于需要大量网络请求的爬虫程序来说，能够显著提升效率。作者还介绍了httpx库，它是支持...
python爬虫----使用httpx
2022-08-21 12:09

沉迷于搬砖的博客 Python爬虫学习
python3爬虫中异步协程的用法
2020-09-16 12:58

通过这样的异步协程编程，爬虫在等待一个网页加载时可以去请求其他网页，极大地提高了爬取速度。不过需要注意的是，异步编程虽然高效，但其逻辑相对复杂，需要对回调、异常处理和协程调度有深入理解。在编写爬虫时，...
Python爬虫新纪元：异步利器httpx与parsel高效爬取全球天气预报数据
2025-10-06 20:09

Python爬虫项目的博客 plt.plot(dates, df['low_num'], marker='s', linestyle='--', label=f'{city_name}-最低温')：当你运行这两个版本，并爬取多个城市时，你会明显发现异步版本的耗时远低于同步版本（同步版本是各个城市爬取时间的...
【Python】爬虫03_动态异步网页请求
2021-12-11 19:39

Amakusa_的博客本人依据上课内容，将简单的动态异步网页请求的学习浓缩为一篇代码介绍。主要有静态网页请求get方法的复习，异步网页请求，伪造请求头，模拟浏览器的介绍，并在最后给出了三个使用实例。本文与2021/12/11首发于...
Python爬虫终极实战：逆向破解拉勾网加密API，异步爬取海量职位数据
2025-09-24 16:40

Python爬虫项目的博客 print(f"成功爬取 {keyword} 第 {page} 页，共 {len(result['content']['positionResult']['result'])} 条职位")keywords = ['Python', 'Java', 'Golang', '数据分析师', '机器学习'] # 要爬取的关键词列表。...
Python爬虫实战：携程旅游攻略爬取全流程解析（动态接口+反爬破解+异步爬取）
2025-06-01 22:39

Python爬虫项目的博客本文介绍了携程旅游攻略的爬取全流程，涵盖静态和动态页面抓取、异步请求、高级反爬策略以及数据存储和简单分析。增加用户评论和评分抓取结合NLP分析攻略文本情感与关键词建立旅游推荐系统自动化代理IP池和验证码...
用 Python 爬取国务院公告和国务院公报：从网页解析到结构化存储，结合现代异步与测试技术
2025-06-09 11:53

Python爬虫项目的博客政务信息公开是政府透明度的重要体现。国务院官网（gov.cn）公开发布大量政策文件、公告、公报等信息，爬取这些数据具有极高的参考与研究价值。...python复制编辑title: strurl: strtitle: strurl: str。
基于现代Python技术的Ajax动态网页爬取实战
2025-07-18 15:59

Python爬虫项目的博客本文详细介绍了如何使用Python最新技术栈实现Ajax动态网页的爬取。文章从Ajax基本原理讲起，逐步深入到现代爬虫技术的核心实现，包括异步请求处理、动态数据解析、反反爬策略等关键技术点。通过完整的实战案例和代码...
揭秘加密 API：使用 Python 爬取加密数据的终极指南
2025-05-03 11:43

Python爬虫项目的博客我们从抓包、逆向、复现、调用、加速五个层面全方位拆解了如何用 Python 爬取加密 API 的数据。mitmproxy：抓包和协议分析Playwright：获取动态页面数据execjs：还原 JS 加密逻辑：提高并发抓取效率只要你能深入理解...
Python爬虫实战：逆向分析+异步爬取，高效构建IT之家新闻数据库
2025-09-25 09:55

Python爬虫项目的博客深入探讨如何运用最新的Python爬虫技术栈——包括基于异步IO的aiohttp库、新一代浏览器自动化工具Playwright、JavaScript逆向工具PyExecJS以及非关系型数据库MongoDB——来构建一个高效、健壮且可扩展的新闻数据爬取...
Python实现基于协程的异步爬虫.zip
2025-08-23 11:38

网络请求模块是实现异步通信的关键，它通常会使用支持异步操作的网络库，例如aiohttp或httpx。数据解析模块则负责将下载的网页内容解析为结构化数据，提取有用信息。数据存储模块则是将解析后的数据保存到文件、...
Python网页解析库：用requests-html爬取网页
2022-07-19 17:24

九柄说测试的博客首先，要有心理准备，不是说会自动化，就不用干手# Python网页解析库：用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍...
【Python】httpx 库：HTTP 客户端库（发送 HTTP 请求和处理响应）
2025-05-07 18:27

彬彬侠的博客 httpx 是一个现代化的 Python HTTP 客户端库，设计用于发送 HTTP 请求和处理响应。它支持同步和异步 API，兼容 requests 库的接口，同时提供更强大的功能，如 HTTP/2、连接池、流式响应和异步支持。httpx 适合构建高...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月13日

httpx异步爬取网页时，只有部分爬取成功的问题

1条回答 默认 最新

问题事件

1条回答默认最新