DictWriter为何保存数据这么慢？

请教一下论坛的朋友们，为何我用这个 csv.DictWriter往excel里保存数据，速度超级慢？基本龟速，半天不出来，那里有问题嘛？如何提高写入速度呢？


import csv

f = open('spider.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
 '交易时间',
 '交易权属',
 '供暖方式',
 '单价',
 '套内面积',
 '建成年代',
 '建筑类型',
 '建筑结构',
 '建筑面积',
 '总价',
 '户型结构',
 '房屋年限',
 '房屋户型',
 '房屋朝向',
 '房屋用途',
 '房权所属',
 '所在楼层',
 '挂牌价',
 '挂牌时间',
 '标题',
 '梯户比例',
 '装修情况',
 '配备电梯',
 '链家编号',    
])
csv_writer.writeheader()#写入表头
cookies = {}
headers = {}

for i in range(1, 2):
    time.sleep(3)
    url = f'https://pg{i}'
    
    
response= requests.get(url, cookies=cookies, headers=headers) #2.获取数据，获取网页源代码。（响应体的文本数据）所以是response.text，if你请求的是jason,那就是response.jason.if是图片格式，就写图片格式
#print(response.text)#基本爬其他网站也这样，可能改的地方就是headers请求头的完整性，url地址和get的方式。
#response.text获取的是一个字符串数据类型，if想直接解析字符串类型，是parsel是没有办法的。此时要用re正则表达式可以。因为parsel没法对字符串直接解析，
#所以，转一下类型。即：

selector = parsel.Selector(response.text)
href = selector.css('.listContent li .title a::attr(href)').getall()

for index in href: 
    html_data = requests.get(url=index, cookies=cookies, headers=headers).text
    selector_1 = parsel.Selector(html_data)#转换成字符串用于提取
    
    title = selector_1.css('.house-title .wrapper::text').get().replace(' ','')# 标题
    dealdate = selector_1.css('.house-title .wrapper span::text').get() #交易时间
    totalprice = selector_1.css('.price .dealTotalPrice i::text').get() +'万' #总价
    unitprice = selector_1.css('.price b::text').get() +'元'  #单价
    guapaiprice = selector_1.css('.msg  span:nth-child(1)  label::text').get() +'万'#挂牌价
    
    base_label = selector_1.css('.base .content li .label::text').getall()#键 把下面基本属性标签名称全部取出来。 
    base_content = selector_1.css('.base .content li::text').getall() #这里直接取li下面的text就不需要提取label标签了。
    base_content = [i.strip() for i in base_content]
    dit_1 = dict(zip(base_label, base_content)) #转成字典数据。why?因为待会要保存成表格数据。
    
    jiaoyi_label = selector_1.css('.transaction .content li .label::text').getall()#键 把下面交易属性标签名称全部取出来。 
    jiaoyi_content = selector_1.css('.transaction .content li::text').getall() #这里直接取li下面的text就不需要提取label标签了。
    jiaoyi_content = [i.strip() for i in jiaoyi_content]
    dit_2 = dict(zip(jiaoyi_label, jiaoyi_content)) #转成字典数据。why?因为待会要保存成表格数据。
    
    dit={
       '标题':title, 
       '总价':totalprice, 
       '单价':unitprice,
       '交易时间':dealdate,
       '挂牌价':guapaiprice,
        
        
    }
    dit.update(dit_1)
    dit.update(dit_2)
    #print(dit)
    
    csv_writer.writerow(dit)
    #pprint.pprint(dit)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bingbingyihao 2023-03-30 23:14
关注
回答：你这个是网页爬取数据哈，一般应该是网页爬取的问题，这个速度会占比更多，文件读写应该不会占用很多时间的；至于网页爬取的速度如何加快，这个你可以考虑多开几个脚本，然后让它们处理不同区段的内容，最后你再对文件综合一下即可

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

保存到文件乱码和没有那么条数据 python 爬虫
2021-11-23 10:33

回答 3 已采纳你这是爬取了多少个页面呀,我跑了好久,记得采纳修改了你数据提取后的多余回车和乱码现象,还有提取的数据有些字符是异形字符,如果你想要显示,建议换种方法存数据,修改了存文件的函数,具体哪些地方你再看看 i
完善代码将用xpath获取的数据保存到csv中 python
2023-02-18 16:57

回答 3 已采纳以下是修改后的代码，将岗位信息、地区、工作、经验和学历以及福利信息保存到CSV文件中。注意，使用CSVWriter写入数据时应在程序启动时只写入一次表头。 import requests impor
我想把采集到的数据保存到pdf中该怎么做 python
2023-03-12 16:10

回答 2 已采纳安装PyPDF2库，可以在终端中使用以下命令： pip install pypdf2 在代码中添加以下内容，将每条数据保存为一个PDF文件： # 创建PDF文件对象 pdf = PyPDF2.P
python语言编程为什么空行,为什么在使用Python中的Dictwriter输出时，CSV文件在每个数据行之间包含空行...
2021-02-21 17:39

HANCVS 韓的博客 I am using DictWriter to output data in a dictionary to a csv file. Why does the CSV file have a blank line in between each data line? It's not a huge deal, but my dataset is big and doesn't fit int.....
爬虫csv获取不到全部数据 python selenium 爬虫
2022-12-24 13:06

回答 2 已采纳 #这样可以拿到所有商品 for i in res.find_all('span',{'class':{'text'}}): d=i.text lst.append(d)
爬虫数据存入CSV时报错：字符串对象没有关键字属性，可是类型查询结果又是字典对象啊，是什么原因？ python
2020-03-17 17:12

回答 4 已采纳改成这样试试 ``` writer = csv.DictWriter(f, [k for k in content]) ```
这是咋回事啊？改了好久都不对 python
2022-11-13 11:40

回答 4 已采纳编码请都设置为utf-8，现在的网页一般都是utf-8的另外你这个爬虫估计运行不了，网站有反爬设置 # coding=utf-8 import json import re import reques
Python采集网站数据内容, 并把详情信息保存PDF
2022-03-05 16:46

魔王不会哭的博客 Python采集网站数据内容, 并把详情信息保存PDF 本次使用开发环境: Python 3.8 Pycharm 2021.2专业版保存PDF 需要 wkhtmltopdf 安装包以上环境都可以点击领取模块使用: 需安装模块 requests 数据请求模块安装...
AttributeError: 'str' object has no attribute 'keys' python 开发语言
2022-07-07 12:00

回答 2 已采纳第6/7行这种方法是按照字符读出文件，city_infos是一段字符串，city_infos=[0]是其中一个字符而已，不能当做字典使用。
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes json python 开发语言
2022-07-07 17:03

回答 3 已采纳你应该是没有替换完，瞅瞅643行附近
demjson.JSONDecodeError: ('Unknown identifier', 'True') json python 开发语言
2022-07-08 11:04

回答 1 已采纳 json格式不规范吧，未知标识符
python爬虫爬下来的数据如何保存_python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下...
2020-12-30 17:35

靖然是你的博客不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本文件、redis、数据库(MySQL、MangoDB)等的存储方式今天先说说CSV什么是 CSV？怎么玩？牛逼么？那么接下来就是CSV 是一个...
如何从STDIN导入行到Postgresql？ postgresql
2016-02-13 18:55

回答 2 已采纳 The following code should point you in the direction you want to go: package main import ( "
如何将python爬出来的数据保存_python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下...
2020-11-21 04:15

weixin_39996908的博客不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本文件、redis、数据库（MySQL、MangoDB）等的存储方式今天先说说CSV什么是 CSV？怎么玩？牛逼么？那么接下来就是CSV 是一个...
苦恼怎么获取旅游景区网站数据?利用Scrapy爬虫轻松做到！
2019-12-28 21:59

工程师大胖的博客我们将数据保存到本地的 csv 文件中，csv 具体操作可以参考：CSV 文件读写，下面看一下具体实现。首先，在 pipelines.py 中编写实现，源码如下： import csv class TicketspiderPipeline(object): def ...
使用python采集某二手房源数据并做数据可视化展示（含完整源代码）
2022-02-18 13:47

魔王不会哭的博客 csv数据保存环境介绍： python 3.8 解释器 pycharm 专业版2021.2 >>> 激活码编辑器模块使用： requests >>> pip install requests 数据请求 (用python代码模拟浏览器对于服务器发送请求) ...
Python、Java 薪资最高，C# 垫底：分析什么编程语言最赚钱！
2018-12-26 12:02

zhuguanghalo的博客本文主要用Python爬取拉勾网不同编程语言职位信息，包括Python岗、Java岗、C++岗、PHP岗、C#岗位（5岗），再用R语言对影响薪资的因素进行分析。由于拉勾网的职位信息只显示30页，一页15个职位信息，如果单独爬取一个...
数据读取_学生数据读取和转存_
2021-10-01 08:28

接下来，我们使用编程语言来实现数据读取。以Python为例，可以使用内置的`open()`函数打开文件，并使用`read()`或`readline()`方法逐行读取内容。考虑到数据可能包含多个字段，我们可能需要使用`split()`函数根据...
Python多线程爬取链家房源，保存表格，实现数据可视化分析.pdf
2023-11-18 09:16

1. **Python基础**：Python是一种高级编程语言，非常适合进行数据处理和网络爬虫。在这里，我们使用的是Python 3.8版本，通过集成开发环境PyCharm编写代码。 2. **第三方库**： - **requests**：用于发送HTTP请求...
python爬新闻并保存csv_python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下
2020-11-26 04:16

weixin_39740346的博客不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本文件、redis、数据库（MySQL、MangoDB）等的存储方式今天先说说CSV什么是 CSV？怎么玩？牛逼么？那么接下来就是CSV 是一个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月30日

悬赏问题

¥15 无法输出helloworld
¥15 高通uboot 打印ubi init err 22
¥20 PDF元数据中的XMP媒体管理属性
¥15 R语言中lasso回归报错
¥15 网站突然不能访问了，上午还好好的
¥15 有没有dl可以帮弄”我去图书馆”秒选道具和积分
¥15 semrush,SEO,内嵌网站，api
¥15 Stata:为什么reghdfe后的因变量没有被发现识别啊
¥15 振荡电路，ADS仿真
¥15 关于#c语言#的问题，请各位专家解答！

DictWriter为何保存数据这么慢？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新