scrapy爬虫， pipelines 中无法打印出东西

爬取文件

import scrapy

from  toutiao.items import ToutiaoItem

class TestSpider(scrapy.Spider):
    name = 'test'
    allowed_domains=['weixin.sogou.com','mp.weixin.qq.com']
    start_urls = [
        "https://weixin.sogou.com/",
        "https://weixin.sogou.com/pcindex/pc/pc_0/1.html"
    ]
    def parse(self, response):
        node_list=response.xpath('//ul/li/div[@class="img-box"]/a/@href').extract()[:1]
        for node in node_list:
            item = ToutiaoItem()
            item['url']=response.url
            item['title']='test title'
            item['content']='test1 content'
            yield item

pipelines 文件

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import  pymysql

class ToutiaoPipeline(object):
    def __init__(self):
        self.connect=pymysql.connect(host='127.0.0.1',user='test',password='123456',db='bin_xinwen',port=3306)
        self.cursor=self.connect.cursor()
        def process_item(self, item, spider):
            print(11111111111111111111111)
            print(item['url'])
            print(22222222222222222222222)
            # self.cursor.execute('insert into articles(url,title,content) VALUES ("{}","{}","{}")').format(item['url'],item['title'],item['content'])
            # self.cursor.commit()
            return item
        def  close_spider(self,spider):
            self.cursor.close()
            self.connect.close()

settings.py

# -*- coding: utf-8 -*-

BOT_NAME = 'toutiao'

SPIDER_MODULES = ['toutiao.spiders']
NEWSPIDER_MODULE = 'toutiao.spiders'


ROBOTSTXT_OBEY = False

SPIDER_MIDDLEWARES = {
   'toutiao.middlewares.ToutiaoSpiderMiddleware': 543,
}

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'toutiao.pipelines.ToutiaoPipeline': 100,
}

执行的时候打印

2019-05-23 17:43:07 [scrapy.middleware] INFO: Enabled item pipelines:
['toutiao.pipelines.ToutiaoPipeline']

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 18:31
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章：scrapy框架不同的爬虫程序设置不同pipelines 也许有你想要的答案，你可以看看

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
Python程序设计：Scrapy爬虫框架的使用.pptx
2022-06-12 17:56

Scrapy爬虫框架笔趣阁小说抓取知识点：Scrapy爬虫框架使用 Scrapy爬虫框架使用 scrapy爬虫开发的基本步骤新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目明确目标（编写items.py）：明确你想要抓取...
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
Scrapy框架（爬虫中间件）：TypeError: __init__() missing 5 required positional arguments python 中间件爬虫
2022-01-29 11:40

回答 2 已采纳在init函数内部引入settings然后依次赋值就解决了
Python笔记——scrapy爬虫框架
2021-01-06 17:23

— — python使用的最广泛的爬虫框架。 2. 创建项目：终端cmd下创建输入命令：scrapy startproject [项目名qsbk] 生成目录结构： 1、scrapy.cfg:项目配置文件 2、items.py :定义需要爬去的字段 3、middlewares.py：...
scrapy爬取知乎首页乱码
2017-12-01 03:21

回答 2 已采纳 ```python HEADERS = { 'Host': 'www.zhihu.com', 'Accept': 'text/html,application/xhtml+xml
爬虫关于xpath在代码中返回为空的问题_美剧天堂电影爬取的案例 python 有问必答
2021-05-13 22:48

回答 3 已采纳少了一个空格，没有选中li元素
scrapy存到mysql查询无数据 mysql python 数据挖掘测试用例
2020-03-04 16:49

回答 1 已采纳在pipelines文件的内部，打印item，看看数据到底有没有获取到连接数据库成功后，打印一个数据库内部的数据，看看是不是连接成功大概率你没搞到数据，所以什么也没有写入
python scrapy 爬虫实例_scrapy爬虫完整实例
2020-12-08 10:18

weixin_39600331的博客本文主要通过实例介绍了scrapy框架的使用，分享了两个例子，爬豆瓣文本例程 douban 和图片例程 douban_imgs ，具体如下。例程1： douban目录树douban--douban--spiders--__init__.py--bookspider.py--douban_comment...
scrapy部署在服务器运行一段时间出现ERROR: Error downloading selenium ubuntu 爬虫
2022-08-09 17:43

回答 1 已采纳服务器掉网？？应该不会，你在服务器的那个控制平台不是可以看网络监控嘛？应该不是断网的问题。可能就是被反爬，你爬的数据多，一段时间内请求多，一般都会被反扒，而你又没有设置代码
Python 爬虫框架Scrapy
2023-01-09 18:20

Shinersmile的博客在scrapy中，会专门定义一个用于记录数据的类，实例化一个对象，利用这个对象来记录数据。每一次，当数据完成记录，它会离开spiders，来到Scrapy Engine（引擎），引擎将它送入Item Pipeline（数据管道）处理。定义...
Scrapy爬虫框架，入门案例（非常详细）
2020-03-21 15:44

JJH的创世纪的博客 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 ...
没有解决我的问题, 去提问

悬赏问题

¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型

scrapy爬虫， pipelines 中无法打印出东西

1条回答 默认 最新

悬赏问题

1条回答默认最新