scrapy将数据存入到mysql数据库时报错object has no attribute

通过scrapy爬取某网站数据在写入数据库时一直报：

AttributeError: 'MysqlPipeline' object has no attribute 'cursor'

本人跟着B站视频学习爬虫，以下代码跟着视频敲的，仔细核对后确认无误，但运行就是一直报上述错误，还望各位友友们能够帮助看一下。
1、项目结构如下：

2、以下为spiders目录下read.py文件源码：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_readbook_practice.items import ScrapyReadbookPracticeItem

class ReadSpider(CrawlSpider):
    name = "read"
    allowed_domains = ["www.dushu.com"]
    start_urls = ["https://www.dushu.com/book/1188_1.html"]

    rules = (
        Rule(LinkExtractor(allow=r"/book/1188_\d+\.html"),
                           callback="parse_item",
                           follow=False),
    )

    def parse_item(self, response):
        img_list = response.xpath('//div[@class="bookslist"]//li')
        for img in img_list:
            name = img.xpath('./div//a/img/@alt').extract_first()
            src = img.xpath('./div//a/img/@data-original').extract_first()
            book = ScrapyReadbookPracticeItem(name=name,src=src)
            yield book

3、以下为pipelines.py文件源码：

from scrapy.utils.project import get_project_settings
import pymysql

class ScrapyReadbookPracticePipeline:
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self,spider):
        self.fp.close()

class MysqlPipeline:
    def open_spier(self,spider):
        settings = get_project_settings()
        self.host = settings['DB_HOST']
        self.port = settings['DB_PORT']
        self.user = settings['DB_USER']
        self.password = settings['DB_PASSWORD']
        self.database = settings['DB_DATABASE']
        self.charset = settings['DB_CHARSET']

        self.connect()

    def connect(self):
        self.conn = pymysql.connect(
            host=self.host,
            port=self.port,
            user=self.user,
            password=self.password,
            db=self.database,
            charset=self.charset
        )
        # 创建游标
        self.cursor = self.conn.cursor()

    def process_item(self,item,spider):
        sql = 'insert into book(name,src) values("{}","{}")'.format(item['name'],item['src'])
        # 执行sql语句
        self.cursor.execute(sql)
        # 提交
        self.conn.commit()

        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

4、以下为settings.py文件源码：

DB_HOST = 'localhost'
DB_PORT = 3306
DB_USER = 'root'
DB_PASSWORD = 'dyj177035'
DB_DATABASE = 'scrapy_read_book'
DB_CHARSET = 'utf8'

ITEM_PIPELINES = {
   "scrapy_readbook_practice.pipelines.ScrapyReadbookPracticePipeline": 300,
   "scrapy_readbook_practice.pipelines.MysqlPipeline":301
}

5、以下为items.py文件源码：

import scrapy
class ScrapyReadbookPracticeItem(scrapy.Item):
    name = scrapy.Field()
    src = scrapy.Field()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-07-04 11:52
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

根据你提供的信息，错误提示 AttributeError: 'MysqlPipeline' object has no attribute 'cursor' 表示在 MysqlPipeline 类的实例中没有找到 cursor 属性。这通常是因为 cursor 属性没有在类的初始化方法中正确创建或引用。

首先，确保你的 MysqlPipeline 类正确地实现了 open_spider 和 close_spider 方法，这两个方法是 Scrapy 调用来初始化和关闭 spider 的时候调用的。在你的 pipelines.py 文件中，open_spider 方法中已经创建了 cursor，但在 process_item 方法中使用 cursor 之前，需要确保 open_spider 方法已经被调用。

这里有几个可能的解决方案：

确保 open_spider 方法被调用：open_spider 方法应该在 spider 开始时被调用。如果 open_spider 没有被正确调用，cursor 就不会被创建。通常这是自动处理的，但有时可能需要检查 ITEM_PIPELINES 设置是否正确。

检查 ITEM_PIPELINES 设置：在 settings.py 文件中，确保 MysqlPipeline 的类路径是正确的。看起来你的类路径可能有误。根据你的项目结构，类路径应该类似于 scrapy_readbook_practice.pipelines.MysqlPipeline，而不是 ScrapyReadbookPracticePipeline。

检查 process_item 方法：确保 process_item 方法在 open_spider 之后被调用。如果 open_spider 没有执行，cursor 就不会被初始化。

使用 self 引用：在 process_item 方法中，确保使用 self.cursor 来引用游标，而不是直接使用 cursor。

检查数据库连接：确保数据库连接信息是正确的，并且 Scrapy 能够连接到 MySQL 数据库。

检查错误处理：在 connect 方法中添加错误处理，以便在连接失败时能够提供有用的反馈。

下面是一些修改后的代码示例：

# 在 pipelines.py 中 class MysqlPipeline: # ... 省略其他部分 ... def open_spider(self, spider): # ... 省略其他部分 ... self.connect() # 确保 cursor 在这里被创建 def close_spider(self, spider): # ... 省略其他部分 ... def process_item(self, item, spider): # 使用 self 来引用 cursor self.cursor.execute(sql) self.conn.commit() return item

确保你的 settings.py 中的 ITEM_PIPELINES 设置正确：

# 在 settings.py 中 ITEM_PIPELINES = { 'scrapy_readbook_practice.pipelines.MysqlPipeline': 300, }

如果问题仍然存在，请检查你的 Scrapy 项目是否正确设置，以及是否有其他代码或配置问题导致 open_spider 方法没有被调用。希望这些建议能帮助你解决问题。如果需要进一步的帮助，可以提供更多的信息。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

爬虫代码提示AttributeError: ‘NoneType’ object has no attribute’strip’，怎么解决 python
2022-05-16 17:01

回答 2 已采纳但凡出现NoneType，表示你的变量值是None报错告诉你None没有strip方法那你就去代码里搜哪里用到了strip，然后看看字符串为什么会是None你在判断ts是''之前，不先判断一下td.s
selenium进行浏览器遍历打开网页时，只有第一个能成功，第二个提示'WebDriver' object has no attribute 'driver_choose' selenium
2020-03-25 16:07

回答 1 已采纳你的变量名driver和库的成员名driver重名了。 ``` for text in browser_text: print(browser) brw = driver
scrapy存到mysql查询无数据 mysql python 数据挖掘测试用例
2020-03-04 16:49

回答 1 已采纳在pipelines文件的内部，打印item，看看数据到底有没有获取到连接数据库成功后，打印一个数据库内部的数据，看看是不是连接成功大概率你没搞到数据，所以什么也没有写入
【Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
2024-05-31 21:24

学网安的A的博客 Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
module 'wsgiref.headers' has no attribute 'items' python
2022-07-01 16:57

回答 2 已采纳 clc_info_html=requests.get('http://www.530p.com/'+clc_url,headers=headers)是不是少了代码？这句代码里的headers应该是你指
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
scrapy中把数据存储到MongoDB，运行也没出错怎么查找不到数据库呢？？？ mongodb python
2020-06-05 16:06

回答 1 已采纳 1.密码设置了吗 2.127.0.0.1改成localhost试试 3.我没招了
scrapy xpath空列表_爬虫SCRAPY之函数
2020-12-31 03:41

张景淇的博客 #coding:utf-8#Scrapy提供了自己的数据提取方法Selector。基于lxml来构建的,支持XPath 选择器、css 选择器以及正则表达式.#利用Selector 这个类来构建一个选择器对象,然后调用它的相关方法如xpath()、css()等来提取...
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
python爬虫之scrapy
2018-09-16 09:12

慢慢慢时光的博客 scrapy安装在windows下，在dos中运行pip install Scrapy报错采用pip安装，安装时可能会出现安装错误Microsoft Visual C++ 14.0 is required，解决方案 http://www.lfd.uci.edu/~gohlke/pythonlibs/#...
scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
python爬虫篇，零基础学爬虫之精华版
2021-01-04 16:06

Python_sn的博客但这些内容可能涉及到一些机密信息，所以爬虫领域目前来讲是属于灰色领域，切勿违法犯罪。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例...
爬虫教程（ 6 ） --- 爬虫进阶、扩展
2022-07-11 07:35

「已注销」的博客将访问过的 URL 保存到数据库。 2. 用 HashSet 将访问过的 URL 保存起来。那只需接近 O(1) 的代价就可以查到一个 URL 是否被访问过了。 3. URL 经过 MD5 或 SHA-1 等单向哈希后再保存到 HashSet 或数据库。 4. Bit-...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月4日

悬赏问题

¥15 java 的protected权限，问题在注释里
¥15 这个是哪里有问题啊？
¥15 关于#vue.js#的问题：修改用户信息功能图片无法回显，数据库中只存了一张图片（相关搜索：字符串）
¥15 texstudio的问题，
¥15 spaceclaim模型变灰色
¥15 求一份华为esight平台V300R009C00SPC200这个型号的api接口文档
¥15 就很莫名其妙，本来正常的Excel，突然变成了这种一格一页
¥15 字符串比较代码的漏洞
¥15 欧拉系统opt目录空间使用100%
¥15 ul做导航栏格式不对怎么改？

scrapy将数据存入到mysql数据库时报错object has no attribute

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新