小鸿叔 2020-02-25 15:54 采纳率: 0%
浏览 583
已结题

Python 并发爬取网页问题,逐一爬取没问题,并发爬取网页不完整

用python爬取内部某一个系统的页面,发现逐一爬取没问题,并发爬取网页不完整。

方法1:request,没问题

代码就不列出来了

方法2:grequests设置size=1时,没问题。

for page_index in range(1, page_count + 1):
    url_query = r"http://***/SP/SlstxSearch.jsp"
    url_query += r"?ACTION=getPage&PAGE={}"
    request = grequests.post(
        url=url_query.format(page_index),
    )

    request_list.append(request)

response_list = grequests.map(
    requests=request_list,
    size=1
)




方法3:grequests设置size=2时,网页开始不完整

for page_index in range(1, page_count + 1):
    url_query = r"http://***/SP/SlstxSearch.jsp"
    url_query += r"?ACTION=getPage&PAGE={}"
    request = grequests.post(
        url=url_query.format(page_index),
    )

    request_list.append(request)

response_list = grequests.map(
    requests=request_list,
    size=2
)



方法4:多线程+request,网页还是不完整,和方法3一样。




不完整的情况:每一页都有一个表格,内部行数都10,逐一取的时候都能取下来,但是并发的状态,有时就取不到完整的10行。

在网上找资料,逐一能取到说明不是AJAX或是JS的问题吧,为什么会这样,请高手路过支招。

  • 写回答

1条回答 默认 最新

  • threenewbee 2020-02-25 16:03
    关注
    评论

    报告相同问题?

    悬赏问题

    • ¥15 我现在有一些关于提升机故障的专有文本数据,量也不多,我在label studio上进行了关系和实体的标注,完成了知识图谱的构造,那么我使用生成式模型的话,我能做哪些工作来写我的论文?
    • ¥15 电脑连不上无线网络如下诊断反馈应该如何操作
    • ¥15 telegram api 使用forward_messages方法转发消息时,目标群组里面会出现此消息来源,如何隐藏?
    • ¥15 在ubuntu中无法连接到远程服务器传输文件
    • ¥15 关于#tensorflow#的问题:有没有什么方法可以让机器自己学会像素风格的图片
    • ¥15 Oracle触发器字段变化时插入指定值
    • ¥15 docker无法进入容器内部
    • ¥15 qt https 依赖openssl 静态库
    • ¥15 python flask 报错
    • ¥15 改个密码引发的项目启动问题