Python 并发爬取网页问题，逐一爬取没问题，并发爬取网页不完整

用python爬取内部某一个系统的页面，发现逐一爬取没问题，并发爬取网页不完整。

方法1：request，没问题

代码就不列出来了

方法2：grequests设置size=1时，没问题。

for page_index in range(1, page_count + 1):
    url_query = r"http://***/SP/SlstxSearch.jsp"
    url_query += r"?ACTION=getPage&PAGE={}"
    request = grequests.post(
        url=url_query.format(page_index),
    )

    request_list.append(request)

response_list = grequests.map(
    requests=request_list,
    size=1
)

方法3：grequests设置size=2时，网页开始不完整

for page_index in range(1, page_count + 1):
    url_query = r"http://***/SP/SlstxSearch.jsp"
    url_query += r"?ACTION=getPage&PAGE={}"
    request = grequests.post(
        url=url_query.format(page_index),
    )

    request_list.append(request)

response_list = grequests.map(
    requests=request_list,
    size=2
)

方法4：多线程+request，网页还是不完整，和方法3一样。

不完整的情况：每一页都有一个表格，内部行数都10，逐一取的时候都能取下来，但是并发的状态，有时就取不到完整的10行。

在网上找资料，逐一能取到说明不是AJAX或是JS的问题吧，为什么会这样，请高手路过支招。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-02-25 16:03
关注
https://blog.csdn.net/weixin_39358657/article/details/89813159

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何使用Scrapy和Python 3爬取网页
2024-05-01 01:00

「已注销」的博客网络爬虫，通常称为网络爬行或网络蜘蛛，是以编程方式浏览一系列网页并提取数据的行为，是处理网络数据的强大工具。通过使用网络爬虫，您可以挖掘有关一组产品的数据，获取大量文本或定量数据以进行分析，从没有官方...
详解Python并发编程之从性能角度来初探并发编程
2020-09-18 18:27

在开始详解Python并发编程之前，我们首先要明白什么是并发编程，它是如何提高程序性能的，以及Python是如何实现并发编程的。在本篇文章中，我们会介绍Python的三种主要并发编程模型：多线程、多进程和协程，并通过...
python爬虫scrapy框架爬取网页数据_教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神...
2020-11-21 03:28

weixin_39858275的博客 Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都...
Python爬虫实战：爬取知乎问答与用户信息
2025-05-09 10:45

Python爬虫项目的博客随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之...在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。
Python并发编程相关及在爬虫实战中的使用
2022-05-02 01:25

冰履踏青云的博客原来代码执行需要20分钟，学习并发编程后可以加快到1分钟执行完毕。 1. 进程和线程先来了解下进程和线程。类比：一个工厂，至少有一个车间，一个车间中至少有一个工人，最终是工人在工作。一个程序
多进程爬取在线课程并存入MySQL数据库.zip
2024-02-22 17:21

4. 数据清洗：爬取到的数据可能存在格式不一致、缺失值等问题，需要进行预处理，使其满足入库要求。总的来说，这个项目涵盖了Python网络爬虫的基础知识，包括HTTP请求、HTML解析，以及并发处理和数据库操作，是一...
Python接收Gmail新邮件并发送到gtalk的方法
2020-09-22 09:02

整个过程涉及的Python知识点包括但不限于： - 使用import语句导入必要的模块 - 使用IMAP协议通过imaplib模块连接并操作Gmail的IMAP服务器 - 使用email库解析邮件数据 - 了解并使用RFC822标准 - 使用xmpp库发送gtalk...
Python网络爬虫项目开发实战：如何处理并发下载
2024-04-22 08:00

好知识传播者的博客在Python网络爬虫项目开发中，为了提高数据抓取的效率和速度，往往需要实现并发下载。并发下载是指同时处理多个下载任务，而不是按照顺序逐一执行。这样做的好处在于能够充分利用系统的多核处理器资源，减少网络等待...
Python面试大全完整版附答案
2023-05-23 18:41

Python面试大全涵盖了大量的核心概念和常见问题，这些知识点对于准备Python面试至关重要。下面将逐一解析这些主题： 1. **Python基础文件操作**： - 文件读取：掌握`open()`函数，理解`read()`, `readline()`, `...
在FastAPI网站学python：Python 并发 async / await
2024-10-18 07:00

skywalk8163的博客 ¶让我们再来回顾下上文所说的：Python 的现代版本可以通过使用async和await语法创建“协程”，并用于支持“异步代码”。现在应该能明白其含义了。✨所有这些使得 FastAPI（通过 Starlette）如此强大，也是它拥有...
没有解决我的问题, 去提问

Python 并发爬取网页问题，逐一爬取没问题，并发爬取网页不完整

1条回答 默认 最新

1条回答默认最新