爬虫速度很慢。怎么改进一下，并且不需要手动改dict

# author:Administrator
# date:2021/04/30

import requests #第三方下载器
import re #正则表达式
import json #格式化数据用
from requests.exceptions import RequestException #做异常处理
from multiprocessing import Pool #使用多进程



def geturl(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.content.decode("utf-8")
        return None
    except RequestException:
        return None

#取慕课主页课程url 放入list
classUrl_list = []
def parse_one_classUrl(html):
    pattern = re.compile('.*?<a target="_blank" href="(.*?)">',re.S)
    items = re.findall(pattern,html)
    classUrl_list.append(items)


# 正则匹配数据
def parse_one_page(html):
    pattern = re.compile('.*?<div class="title-box">.*?<h1>(.*?)</h1>'
                         '.*?<span>难度</span>.*?<span class="nodistance">(.*?)</span>'
                         '.*?<span>时长</span>.*?<span class="nodistance">(.*?)</span>'
                         '.*?<span>学习人数</span>.*?<span class="nodistance">(.*?)</span>'
                         '.*?<span>综合评分</span>.*?<span class="nodistance">(.*?)</span>'
                         ,re.S)
    items = re.findall(pattern,html)
    for item in items:
        # 格式化每一条数据为字典类型的数据
        yield {
            'title': item[0],
            'difficulty': item[1],
            'duration': item[2],
            'stu_number': item[3],
            'comprehensive_evaluation': item[4]
        }

#获取课程urlList
def getClassurl(dict):
    for class_type in dict:
        for stuname in dict[class_type]:
            url = geturl(dict[class_type][stuname])
            #获取课程urlList
            parse_one_classUrl(url)
    return classUrl_list

#url不全  拼接地址
Classurladd = []
homeurl='https://coding.imooc.com'
def getaddClassurl(list):
    for pagelist in list:
        for classurl in pagelist:
            Classurladd.append(homeurl + classurl)
    return Classurladd

#写入文本
def write_to_file(name,content):
    with open('..\\text\%s.txt' %name,'a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
        f.close()


dict_qd = {'前端':{'vus.js':'https://coding.imooc.com/?c=vuejs','HTML/CSS':'https://coding.imooc.com/?c=html','JavaScript':'https://coding.imooc.com/?c=javascript','Node.js':'https://coding.imooc.com/?c=nodejs'}}
dict_hd = {'后端':{'java':'https://coding.imooc.com/?c=java','SpringBoot':'https://coding.imooc.com/?c=springboot','SpringCloud':'https://coding.imooc.com/?c=springcloud'}}
dict_ydkf = {'移动开发':{'android':'https://coding.imooc.com/?c=android','ios':'https://coding.imooc.com/?c=ios','Reactnative':'https://coding.imooc.com/?c=reactnative'}}
dict_yun = {'云计算大数据':{'hadoop':'https://coding.imooc.com/?c=hadoop','大数据':'https://coding.imooc.com/?c=bigdata','Spark':'https://coding.imooc.com/?c=spark','Docker':'https://coding.imooc.com/?c=docker'}}
dict_db = {'数据库':{'mysql':'https://coding.imooc.com/?c=mysql','redis':'https://coding.imooc.com/?c=redis','mongodb':'https://coding.imooc.com/?c=mongodb'}}


def main():
    url_list = getClassurl(dict_hd)
    Classurladd = getaddClassurl(url_list)
    print(classUrl_list)
    for u in Classurladd:
        classhtml = geturl(u)
        for item in parse_one_page(classhtml):
            write_to_file("dict_hd",item)



if __name__ == '__main__':
    main()

我自己写了一个爬慕课网的demo，但速度很慢，想看看大神帮我改进一下，目前我是手动去改dict值。

现在爬到的数据格式是：

{"title": "Spring Cloud Alibaba 大型互联网领域多场景最佳实践", "difficulty": "中级", "duration": "15小时"}

想更改为：

{"stu_name":"后端","title": "Spring Cloud Alibaba 大型互联网领域多场景最佳实践", "difficulty": "中级", "duration": "15小时"}

并且爬的速度太慢了

求求大神，路过帮孩子想想办法

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
vainquit 2021-05-01 09:07
关注
你这里爬的慢，应该是没有使用多线程的缘故（你导入了多进程的库，但你这代码似乎也没有使用）。geturl是耗时操作，单线程情况下，这个操作不结束，后面代码就得等它结束，而且geturl在一轮抓取中好像还调用了不止一次。正确的思路是同时开几个子线程去getClassurl，这几个线程抓取到的结果在各自的线程经过getaddClassurl处理后统一存放到一个队列(Queue)里；之后再开多个子线程，同时向这个队列索取结果并在各自线程继续抓取内容（也就是classhtml = geturl(u)这一步也要使用多线程），最后在各自的线程里执行write_to_file。当然，爬虫爬多了，你会发现大多数情况爬那么快没什么用，因为大多数网站都有严厉的反爬措施，你还得研究怎么处理被对方断线(也就是状态码不再是200）的场景。

至于你说改dict，这不就是给字典添加一个键值对嘛，有什么难的。。。dict_hd["stu_name"]="后端"不就行了，可能是我理解错了你的意思

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客上次整理的爬虫教程反响不错，但是还是有小伙伴表示不够细致，今天带了升级版，全文很长，建议先收藏下来。一、爬虫基础爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类 ...
selenium用法详解【从入门到实战】【Python爬虫】【4万字】
2021-10-09 14:17

Dream丶Killer的博客 # 定位搜索按钮 button = driver.find_element_by_xpath('//*[@id="toolbar-search-button"]/span') # 执行单击操作 button.click() 单击右键鼠标右击的操作与左击有很大不同，需要使用 ActionChains 。...
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis...scrapy的日志信息与配置 scrapyd部署scrapy项目 Gerapy爬虫管理 crawlspider类的使用
python爬虫
2022-11-17 11:54

学习的程序人的博客通用爬虫：就是将互联网的上页面整体的爬取下来之后，保存到本地。通用爬虫要想爬取网页，需要网站的url.但是搜索引擎是可以搜索所有网页的。
【Python爬虫详解】第三篇：编写你的第一个爬虫程序
2025-04-21 10:00

Luck_ff0810的博客避免频繁请求对服务器造成负担异常处理：妥善处理可能出现的各种错误模拟真实用户：设置合理的请求头和Cookie代码可维护性：编写清晰、结构化的代码通过本文的学习，你应该已经掌握了编写一个基本爬虫的方法。
零基础学Python爬虫：从菜鸟到大神的4阶段入门指南，少走3年弯路
2025-12-27 10:10

程序员威哥的博客从零基础到爬虫大神，没有捷径可走，但有清晰的路径可遵循：先打牢工具和基础，再从简单实战入手，然后突破动态网页和反爬，最后掌握框架、分布式和合规，一步步升级。我当年自学时，为了搞定一个滑块验证，连续3天...
六万字带你一次性速通python爬虫基础
2022-03-04 21:56

跳探戈的小龙虾的博客网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。...
【Python爬虫实战】SSL证书、超时处理、自动重试与代理的最佳实践
2024-10-08 14:30

易辰君的博客 Python 的 requests 模块因其简单易用、功能强大而广受欢迎，能够帮助开发者轻松发起各种网络请求并处理响应。然而，在实际应用中，开发者经常需要处理 SSL 证书验证、请求超时、自动重试以及会话管理等复杂的场景。...
Python（一）实现一个爬取微信小程序数据并定时秒杀的爬虫+工程化初步实践
2025-06-25 07:30

JackSparrow414的博客本文介绍了使用Python开发微信小程序自动化爬虫的全过程。首先通过Charles抓包工具获取小程序API请求格式，解决了iOS/Android系统抓包的技术难点。然后采用Python工程化规范搭建项目，使用Poetry管理虚拟环境，并...
Python 爬虫进阶实战：爬取数据持久化存储（CSV/Excel/TXT/JSON 全格式）
2026-01-12 13:31

python 爬虫工程师的博客本文详细讲解了Python爬虫数据持久化存储的四大主流格式实现方法，涵盖TXT、JSON、CSV和Excel的核心存储技术。文章针对爬虫开发中的常见存储问题，提供了标准化解决方案和通用函数封装，重点解决了中文乱码等痛点...
Python 爬虫数据处理：爬取文本数据的分词与情感分析
2026-01-15 22:48

python 爬虫工程师的博客本文介绍了Python爬虫实战中的文本数据处理流程，重点讲解了中文分词和情感分析的技术实现。通过京东商品评论案例，详细展示了从数据爬取、文本清洗、Jieba分词到情感分析的全过程。文章对比了基于词典（SnowNLP）和...
python进阶-04-Python Scrapy带你掌握Python Scrapy（2.12）爬虫框架，附带实战
2024-11-27 22:34

SEEONTIME的博客在Python进阶系列我们来介绍Scrapy框架最新版本2.12，远超市面上的老版本，Scrapy框架在爬虫行业内鼎鼎大名，在学习之前我想请大家思考Scrapy究竟能解决什么问题？或者能爬哪一类型的网站！还有针对Scrapy的局限性...
没有解决我的问题, 去提问

爬虫速度很慢。怎么改进一下，并且不需要手动改dict

2条回答 默认 最新

2条回答默认最新