python使用多线程下载网页结果下载到的内容相同。。

 import aiohttp
import asyncio
import time
import multiprocessing as mp
import requests
from bs4 import BeautifulSoup
import socket
import re
import pprint

header = 'http://osu.ppy.sh/'
middle = 'p/pp/?'
mode = 'm=3'  # 0=stanard 1=taiko 2=ctb 3=mania
url = header + middle + mode + '&'
page = [1, 3]  # 开始页数-结束页数
badRequest = {}  # pageNum:resCode
htmls={}
colls={}
#way store in mongoDB : collection: {"_id":"1", "Rank":"1","Player Name":"Jakads","Accuracy":"97.59%","Play Count":""
#"Performance":"17288pp"}

def getPages(pageNum):  #每1秒获取一个页面当做缓存

    global url
    #global badRequest
    #global htmls
    try:
        print('开始get网页,pageNum=',pageNum)
        res = requests.get(url=url + 'page=' +str(pageNum), timeout=10)
        print(url + 'page=' +str(pageNum))
        time.sleep(.1)
        # 如果res不等于200 重试3次
        count = 0
        #print(res.status_code)
        while (res.status_code != 200 and count <= 3):
            res.status_code = requests.get(url=url + 'page=' +str(pageNum), timeout=10)
            print('restart get')
            count += 1
            if (res.status_code == 200):
                return res.text
            else:
                return res.status_code
        if(res.status_code==200):
            writez(res.text)
            return res.text
        else:
            print( 'pageNum : ', pageNum, '返回码 : ', res.status_code)
            return res.status_code
    except Exception as e:
        print(e)
        return None

def findTags(html,startNum):
    soup = BeautifulSoup(html, features='lxml')
    tables = soup.findAll('table')
    # print(len(tables))

    for t in tables:
        sec = 0 #table顺序
        for tr in t.tbody.findAll('tr'):
            # print('sec:',sec)
            td_sec = 0  #table内顺序
            for td in tr.findAll('td'):
                text = td.get_text().strip()
                # print(len(text))
                if (td_sec == 0):
                    dict = {"rank": text}
                elif (td_sec == 1):
                    dict.update({"Player Name": text})
                elif (td_sec == 2):
                    dict.update({"Accuracy": text})
                elif (td_sec == 3):
                    dict.update({"Play Count": text})
                elif (td_sec == 4):
                    dict.update({"Performance": text})
                elif (td_sec == 5):
                    dict.update({"SS": text})
                elif (td_sec == 6):
                    dict.update({"S": text})
                elif (td_sec == 7):
                    dict.update({"A": text})
                td_sec += 1 #每一次遍历+1
            colls[str(startNum+sec)] = dict
            sec += 1 #每一个用户+1

def writez(msg):
    with open('tmp.txt','w',encoding='utf-8') as f:
        f.write(msg)

if __name__=='__main__':
    startTime = time.time()
    pool = mp.Pool()
    jobs=[pool.apply_async(getPages,args=(pageNum,))for pageNum in range(page[0],page[1]+1)]

    pool.close()
    pool.join()
    results=[f.get() for f in jobs]
    # for z in jobs:
    #     writez(str(z.get()))
    #print(len(results))
    startNum=1

    #print(results[2])
    for h in range(0,len(results)):
        findTags(results[h],startNum)
        startNum+=50
    pprint.pprint(colls)

    #print(htmls)
    print('花费时间 : ', time.time() - startTime, 's')
    print('ok')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
pikechuz 2018-11-19 12:51
关注
问题解决了原因是原网站被重定向到新页面去了...坑啊！一直加载到错误的页面所以读取错了...

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用python多线程下载在线视频
2020-08-05 15:50

使用python多线程下载在线视频，然后进行视频合并。需要事先取得在线视频地址或m3u8文件地址，运行后输入，会自动建立临时文件夹，等视频文件全部下载完后，会生成cmd文件，运行会进行视频，需要使用ffmpeg。
python m3u8多线程下载器
2022-08-18 11:17

总的来说，这个Python m3u8多线程下载器结合了Python的灵活性、FFmpeg的强大功能以及多线程技术的效率，为用户提供了便捷的m3u8视频资源下载解决方案。无论是普通用户还是开发者，都能从中受益。在实际使用过程中，...
python实现多线程下载大量图片的代码
2020-09-12 14:54

python实现多线程下载大量图片的代码，代码中加入了代理ip，加入了随机head，这两项内容可以防止客户机ip被屏蔽，从目前测试的结果来看，代码的使用效果非常好，对于有需要的小伙伴可以下载使用。同理该代码可以用于...
Python之多线程爬虫抓取网页图片的示例代码
2020-12-25 12:50

那么请使用python语言，构建一个抓取和下载网页图片的爬虫。当然为了提高效率，我们同时采用多线程并行方式。思路分析 Python有很多的第三方库，可以帮助我们实现各种各样的功能。问题在于，我们弄清楚我们需要...
python的多线程爬取下载图片
2021-11-23 23:58

python的多线程爬取下载图片
Python3中的单线程带进度条和多线程下载文件代码及注意事项
2020-05-18 17:46

网上的一些代码可能会有些奇怪的问题，用的是类全局变量打开文件但在多线程中并未加锁，会导致文件有一定几率出现大小和源文件不同，即使文件大小相同,MD5值也不同,中间有一段是坏的，在图片和音频中可能只是其中一...
【Python】使用requests库实现多线程下载大文件
2022-11-25 14:39

冰冷的希望的博客使用使用requests库可以实现网络请求，但如果用于下载大文件，单线程下载确实不能很好地利用宽度，改为多线程会更好一点。2.拿到了文件大小之后，根据线程数划分为多个数据块，即每个线程都请求一部分，在请求头的...
【Python】多线程的使用以及注意事项
2024-07-17 19:59

顽石九变的博客 Python中的多线程允许你并行地执行多个任务，从而充分利用多核CPU的优势。然而，由于Python的全局解释器锁（GIL）的存在，标准的Python线程在CPU密集型任务上可能并不会带来真正的并行执行优势。但在IO密集型任务...
基python实现多线程网页爬虫
2020-12-23 16:57

实现多线程网页爬虫，采用了多线程和锁机制，实现了广度优先算法的网页爬虫。先给大家简单介绍下我的实现思路：对于一个网络爬虫，如果要按广度遍历的方式下载，它是这样的： 1.从给定的入口网址把第一个网页...
python爬取网页图片并下载之多线程
2023-12-22 12:22

Az_plus的博客在python爬虫的学习中，即使是多线程也并不是我们最终的手段，在高级点的项目中，我们可能会用到其他的类似于Scrapy的爬虫框架Scrapy使用Twisted框架作为其底层网络引擎，利用异步IO技术来实现高效的网络请求和数据...
没有解决我的问题, 去提问

python使用多线程下载网页 结果下载到的内容相同。。

1条回答 默认 最新

python使用多线程下载网页结果下载到的内容相同。。

1条回答默认最新