请问Python爬虫如何把爬取数据存入csv文件中

Python讲的太快了。。这门课都快结束了我感觉大部分还是一知半解，这次做的爬虫work，要求存为csv格式，我现在是txt格式，不太清楚应该怎么改。。还有就是我的ip已经被封了，代理池什么的我都不知道该加在哪。。这个爬虫的目的是为了爬取豆瓣图书的相关数据。

pipelines代码
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

import json
class DoubanBooksPipeline:
    def process_item(self, item, spider):
        with open("douban_book_list.csv","a",encoding="utf-8") as f:
            f.write(json.dumps(item,ensure_ascii=False))

settings代码
# Scrapy settings for douban_books project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'douban_books'

SPIDER_MODULES = ['douban_books.spiders']
NEWSPIDER_MODULE = 'douban_books.spiders'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
ITEM_PIPELINES = {
    'douban_books.pipelines.DoubanBooksPipeline': 300,
}
ROBOTSTXT_OBEY = False
LOG_LEVEL = 'WARNING'
# LOG_LEVEL = 'WARNING' #设置日志级别，即输出结果只会显示warning以及warning以上的日志

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'douban_books (+http://www.yourdomain.com)'

# Obey robots.txt rules


# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'douban_books.middlewares.DoubanBooksSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'douban_books.middlewares.DoubanBooksDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

爬虫book代码
import scrapy
from copy import deepcopy
import re


class BookSpider(scrapy.Spider):
    name = 'book'
    allowed_domains = ['book.douban.com']
    start_urls = ['https://book.douban.com/tag/?view=type']

    def parse(self, response):
        item = {}
        div_list = response.xpath(".//div[@class='article']/div[2]/div")  # 进行分组
        for div in div_list:
            item["big_title"] = div.xpath("./a/@name").extract_first()  # 提取大标签
            tr_list = div.xpath(".//table[@class='tagCol']")  # 进行分组
            for tr in tr_list:
                td_list = tr.xpath(".//td")
                for td in td_list:
                    item["small_title"] = td.xpath("./a/text()").extract_first()
                    item["cate_list_url"] = td.xpath("./a/@href").extract_first()
                    if item["cate_list_url"] is not None:
                        item["cate_list_url"] = 'https://book.douban.com' + item["cate_list_url"]
                        yield scrapy.Request(
                            item["cate_list_url"],
                            callback=self.parse_list,
                            meta={"item": deepcopy(item)}
                        )

    def parse_list(self, response):
        item = response.meta["item"]
        li_list = response.xpath(".//ul[@class='subject-list']/li")  # 分组
        for li in li_list:
            item["book_name"] = li.xpath(".//div[@class='info']/h2/a/@title").extract_first()
            item["book_name"] = re.sub(r"[(\n)(\t)( )]", "", item["book_name"]) #删除书名中的空格与换行符等
            item["book_score"] = li.xpath(".//div[@class='star clearfix']/span[@class='rating_nums']/text()").extract_first()
            book_detail_str = li.xpath(".//div[@class='info']//div[@class='pub']/text()").extract_first()
            book_detail_str = re.sub(r"[(\n)( )]", "", book_detail_str) #提取书籍简要信息，并对简要信息进行切片处理，提取切片中的内容
            book_detail_list = list(book_detail_str.split("/"))
            item["book_price"] = book_detail_list[-1] if len(book_detail_list) > 0 else None
            item["book_author"] = book_detail_list[0] if len(book_detail_list) > 0 else None
            item["book_comment_nums"] = li.xpath(".//div[@class='star clearfix']/span[@class='pl']/text()").extract_first()
            item["book_comment_nums"] = re.sub(r"[(\n)( )]", "", item["book_comment_nums"])
            print(item)

        next_page = response.xpath(".//span[@class='next']/a/@href").extract_first()
        if next_page is not None:
            next_page = 'https://book.douban.com' + next_page
            yield scrapy.Request(
                next_page,
                callback=self.parse_list,
                meta={"item": deepcopy(item)}
            )

            yield item

希望大家指导下，谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-黄老师 2021-11-21 23:03
关注
你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python爬取数据存入excel中的问题 python 数据分析爬虫
2021-08-18 15:01

回答 2 已采纳不清楚你爬取的网页结构是什么？看你代码及执行结果猜测：第一页中只有一个《ul》,你取了它之下所有的《a》和《span》的内容，然后用“，”将它们连接成一个字符串，结果就是一个《ul》下的内容存为
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
Python爬虫：爬取电影排行榜数据并写入csv文件
2022-07-27 23:05

散一世繁华，颠半世琉璃的博客 Python爬虫：爬取电影排行榜数据并写入文件
为什么用python 爬取数据到excel中300多行只剩下一行？ python vscode 开发语言有问必答
2021-08-01 12:32

回答 4 已采纳将写入文件语句放到循环外，加上列名并逐行写入，后面的代码可以这样写： #code with open('data/51job.csv','w') as f: f.write(','.join(
爬虫爬出的数据，print输出可以全部输出，但是写入CSV文件时只能写最后一行 python 爬虫
2022-02-22 08:10

回答 3 已采纳 # -*- coding:utf-8 -*- import requests import csv,re url1 = 'http://category.dangdang.com/' url2
python关于request的爬虫和对爬取的数据简单处理 python 其他
2021-06-23 17:41

回答 1 已采纳 df=pd.DataFrame(allUniv) #把数据放入csv文件 df100=df.loc[1:100] #增加一个中间变量 df100.to_csv('D:\\demo\\
python爬虫——保存数据为.csv文件
2022-11-15 22:06

小白白白白白白.的博客爬虫存储数据为.csv文件
如何把print的结果保存至csv？ python 爬虫
2022-06-30 22:05

回答 1 已采纳 df = pd.read_csv('pd.csv', usecols=['stat']) print(df) i = 0 for d in df['stat']: print(eval(d)[
python爬虫爬取网页信息问题 python
2019-05-14 08:32

回答 1 已采纳将字符串中空格去掉。
爬取到的名字价格时间等数据在cvs中不匹配 python selenium 爬虫
2022-05-28 07:46

回答 1 已采纳你的代码设计的就不合理啊，你这个改动最小的应该就是 priceArray.append(price) 改成 priceArray.append([url,price]) 标记这个价格是哪个url 的，
python爬虫scrapy框架无法生成csv文件是怎么回事_Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)...
2020-11-26 06:07

weixin_39689394的博客 1. Scrapy框架Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。2. Scrapy安装1. 安装依赖包yum install gcc libffi-devel python-devel openssl-devel -yyum ...
爬虫数据存入CSV时报错：字符串对象没有关键字属性，可是类型查询结果又是字典对象啊，是什么原因？ python
2020-03-17 17:12

回答 4 已采纳改成这样试试 ``` writer = csv.DictWriter(f, [k for k in content]) ```
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
2020-02-18 15:47

sandorn的博客 Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4) 1. Scrapy框架　Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。 2. Scrapy安装 1. 安装依赖包 ...
python 爬虫网页内容并写入CSV文件
2022-11-27 22:24

niuyongliang110的博客 python 爬虫 CSV
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月21日

悬赏问题

¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题

请问Python爬虫如何把爬取数据存入csv文件中

希望大家指导下，谢谢

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新