用anaconda的scrapy爬取数据,按照步骤设置好了,却爬不到数据,求助大神救救菜鸟

这是运行的全部结果:
(D:\Anaconda2) C:\Users\luyue>cd C:\Users\luyue\movie250

(D:\Anaconda2) C:\Users\luyue\movie250>scrapy crawl movie250 -o items.json
2017-05-12 19:24:26 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: movie250)
2017-05-12 19:24:26 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'movie250.spiders', 'FEED_URI': 'items.json', 'SPIDER_MODULES': ['movie250.spiders'], 'BOT_NAME': 'movie250', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}
2017-05-12 19:24:26 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.feedexport.FeedExporter',
'scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2017-05-12 19:24:26 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-05-12 19:24:26 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-05-12 19:24:26 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2017-05-12 19:24:26 [scrapy.core.engine] INFO: Spider opened
2017-05-12 19:24:26 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-05-12 19:24:26 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-05-12 19:24:26 [scrapy.core.engine] DEBUG: Crawled (403) (referer: None)
2017-05-12 19:24:26 [scrapy.core.engine] DEBUG: Crawled (403) (referer: None)
2017-05-12 19:24:27 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response : HTTP status code is not handled or not allowed
2017-05-12 19:24:27 [scrapy.core.engine] INFO: Closing spider (finished)
2017-05-12 19:24:27 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 445,
'downloader/request_count': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 496,
'downloader/response_count': 2,
'downloader/response_status_count/403': 2,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2017, 5, 12, 11, 24, 27, 13000),
'log_count/DEBUG': 3,
'log_count/INFO': 8,
'response_received_count': 2,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2017, 5, 12, 11, 24, 26, 675000)}
2017-05-12 19:24:27 [scrapy.core.engine] INFO: Spider closed (finished)

2

3个回答

代码也是在网上找的现成的,不知道哪里出了问题,求指教;下面是爬虫的代码
import scrapy
from movie250.items import Movie250Item

class Movie250Spider(scrapy.Spider):
"""docstring for Movie250Spider"""
name = 'movie250'
allowed_domains = ["douban.com"]
start_urls = [
"http://movie.douban.com/top250/"
]

def parse(self, response):
for info in response.xpath('//div[@class="item"]'):
item = Movie250Item()
item['rank'] = info.xpath('div[@class="pic"]/em/text()').extract()
item['title'] = info.xpath('div[@class="pic"]/a/img/@alt').extract()
item['link'] = info.xpath('div[@class="pic"]/a/@href').extract()
item['star'] = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span/em/text()').extract()
item['rate'] = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span/text()').extract()
item['quote'] = info.xpath('div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()').extract()
yield item

# 翻页
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
  url = response.urljoin(next_page[0].extract())
  yield scrapy.Request(url, self.parse)
0

同问,我跟着MOOC上打完代码,运行后发现得到的空文本,也没爬到数据。。T^T

0
-5
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Scrapy: 为什么xpath和css明明是对的,但却爬不到任何内容?
有很多小伙伴入门Scrapy的时候都会有这样的疑问:明明写的xpath和css是对的(就算真自己写错,那用谷歌或火狐返回的xpath和css不会错的吧),但总是返回一个空列表。 解决办法很简单,改变自己的一个观念就好:Scrapy爬虫看到的页面结构与我们自己在浏览器看到的可能并不一样。 所以scrapy shell这种工具就非常有用了,Scrapy官方文档对它的说明是: The...
scrapy可以成功运行,但不能返回要爬取的文字内容
scrapy可以成功运行不报错但不能返回要爬取的文字内容
Scrapy爬取页面错误原因汇总
url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0] print(url) yield scrapy.Request(url, callback=self.parse) 如上图代码,scrapy 爬虫过程中,在实现翻页时,偶然遇见如下报错: Missin...
菜鸟用scrapy爬取虎扑图片
注意:以下代码是参考网上各路大神爬虫的代码,然后根据自己要爬的网站对代码进行修改,如有雷同,那必须是参考了您的代码。 转载请注明出处,谢谢!!!!! 一、首先,我们需要先装scrapy,可以参考http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html这篇文章来安装
windows安装Anaconda3,Anaconda3安装scrapy抓取链家数据入门例子
一 windows安装Anaconda3 主要介绍scrapy在win7下的安装,这里的话并不推荐大家用python+pip安装,推荐使用Anaconda进行安装,为什么呢?因为如果你选择前者,填坑的过程可能会让你绝望,说不定会让你砸键盘、内分泌失调,所以强烈建议用Anaconda!不信的话大家可以试试! 这里的话简单介绍一下anaconda的下载,下载地址为:https://www.anacon...
Scrapy框架爬取详细步骤
Scrapy框架(本文只做学习使用,请勿他用)1.需求工具 pycharm 小说网的域名 (www.qisuu.com)第一步—–创建文件创建成功后显示如图:第二步——将创建在桌面上的scrapy文件用pycharm打开:这是创建成功后在pycharm中的显示pycharm左下角打开 Terminal打开后如图 我第一次键入了一条命令 提示爬虫名字不能和项目名称一样,更改后再运行..成功建立爬虫
Scrapy 爬虫(3):爬取数据不保存,就是耍流氓
(给Python开发者加星标,提升Python技能)作者:Zone (本文来自作者投稿)前言通过前面两篇文章《爬虫利器 Scrapy 初体验(1)》《Scrapy 爬虫(...
用scrapy爬取网页数据
刚开始接触scrapy,乍那么一看,这都是些什么鬼,感觉好难。。。。。。 学习历程大概是这样的: 1.先百度了scrapy的官方文档,scrapy官方文档,早就安装了scrapy,cmd->python->import scrapy的时候是很正常的,不过在pycharm中导入一直都有红杠杠的。。。。不得不又卸了重新装。在这里特别要注意scrapy的s的大小写。pip安装的时候是大写,导入模块的
Python爬虫框架Scrapy之爬取糗事百科大量段子数据
如上篇文章《Python爬虫框架之Scrapy详解》(传送门:Python爬虫框架之Scrapy详解)所述。首先,准备scrapy环境: 安装Python,pip,使用pip安装lxml和scrapy。 scrapy startproject qiubai新建一个名为qiubai的scrapy爬虫项目。 新建qiubai爬虫项目使用PyCharm打开,项目结构如图:定义QiubaiItem:新建项目
用Scrapy爬取网站时总获取不到源代码的解决办法
运行scrapy crawl gupiao,报错如下: 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: gupiaosp ider) 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': ' ...
用Scrapy爬取百度小说吧内容
本次的分享内容是利用scrapy去爬取百度贴吧小说吧的楼主发的帖子的内容,地址连接如下,小说吧链接:《谁杀死了知更鸟》。 第一步,首先我们要创建一个Scrapy的项目。 首先在pycharm中新建一个文件夹。名字取为贴吧小说,在我电脑上的路径为:C:\Users\Administrator\Desktop\Python资料\贴吧小说 打开控制台界面输入cmd。输入cd+空格+C:\Users...
【爬虫】Scrapy 抓取网站数据
【原文链接】http://chenqx.github.io/2014/11/09/Scrapy-Tutorial-for-BBSSpider/   Scrapy Tutorial   接下来以爬取饮水思源BBS数据为例来讲述爬取过程,详见 bbsdmoz代码。   本篇教程中将带您完成下列任务: 1. 创建一个Scrapy项目 2. 定义提取的Item 3. 编写爬取网站的 spider...
scrapy 爬取数据时翻页专栏
1.分析url,是否能够找到翻页的规律2.获取该页面下一页的url,进行访问
Python下使用Scrapy爬取网页内容
上周用了一周的时间学习了Python和Scrapy,实现了从0到1完整的网页爬虫实现。研究的时候很痛苦,但是很享受,做技术的嘛。 首先,安装Python,坑太多了,一个个爬。由于我是windows环境,没钱买mac, 在安装的时候遇到各种各样的问题,确实各种各样的依赖。安装教程不再赘述。如果在安装的过程中遇到 ERROR:需要windows c/c++问题,一般是由于缺少windows开
使用Scrapy爬取一个网站的数据
Scrapy框架的初步运用
Python+Scrapy爬取数据简单实例
Python爬取数据 Scrapy安装 Scrapy简介及win下安装 Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据 ——百度百科 scapy安装+wins 以下所有软件在win下面安装方式相似,且都要对应python版本及win的操作系统位数。有的软件依赖其他软件,所以要先安装依赖。 第一步:安装p
scrapy+python爬地图参照物应该有的坑及解决办法
scrapy+python爬地图参照物应该有的坑及解决办法
Scrapy爬取淘宝网数据的尝试
因为想学习数据库,想要获取较大量的数据,第一个想到的自然就是淘宝。。。。其中有大量的商品信息,淘宝网反爬措施还是比较多,特别是详情页面还有恶心的动态内容 该例子中使用Scrapy框架中的基础爬虫(CrawlSpider还有点没搞清楚= = b) 先贴上整体代码 import scrapy import re import csv import pymongo from tmail.i
58同城——爬取步骤
以下这几个文件的构造: scrapy_ljw scrapy_ljw spiders a58tc.py items.py pipelines.py settings.py mysql_save.py run_58.py a58tc.py # -*- coding: ...
scrapy爬取知乎问题实战
首先,需要理解cookies的含义,是存储在浏览器中的内容,在本地存储任意键值对,第一次访问时服务器返回一个id存储到本地cookie中,第二次访问将cookies一起发送到服务器中 常见http状态码 code 说明 200 请求成功 301/302 永久重定向/临时重定向 403 没有权限访问
python2.7+anaconda爬虫爬取美团商家信息
第一步,打开美团 网https://chs.meituan.com/(谷歌浏览器)——点击右键检查——点击左中箭头——选中文字美食<a href=http://chs.meituan.com/meishi/,接下来我们把这些url爬取下来 def get_start_links(url):     html=requests.get(url).text#发送请求获取主页文本     ...
AI&BigData four:使用scrapy爬取网站,按照指定的格式存入txt文本的详细过程复盘
用了将近两个星期,终于对scrapy有了初步了解,并且使用scrapy来爬取到了动态加载的网页。再此给自己这两周的学习成果做一个详细的过程复盘,顺带重温下忘掉的知识。首先看看项目要求。要爬取的是左边的四个大板块里的四个小版块的文章,然后按照以下的格式保存在文档中。最终爬取的结果是这样的:接下来让我们看看具体过程是怎样的?1.打开命令行,跳转到指定文件存放的目录下,新建一个scrapy项目。如下所示...
scrapy框架下爬取51job网站信息,并存储到表格中
1. 通过命令创建项目scrapy startproject JobSpider2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider job baidu.com4. 配置settingsrobots_obey=False Download_delay=0.5 Cookie_enable=FalseDOWNLOADER_MIDDLEWARES = { 'Job...
scrapy-redis实例,分布爬虫爬取腾讯新闻,保存在数据库中
项目结构: setting # -*- coding: utf-8 -*- import random from newsSpider.userAgent import USER_AGENT_LIST BOT_NAME = 'newsSpider' SPIDER_MODULES = ['newsSpider.spiders'] NEWSPIDER_MODULE = 'newsSpi...
使用scrapy爬取dota2贴吧数据并进行分析
一直好奇贴吧里的小伙伴们在过去的时间里说的最多的词是什么,那我们就来抓取分析一下贴吧发文的标题内容,并提取分析一下,看看吧友们在说些什么。 首先我们使用scrapy对所有贴吧文章的标题进行抓取 scrapy startproject btspider cd btspider scrapy genspider -t basic btspiderx tieba.baidu.com 修改bts
使用scrapy爬取图片
一 半自定义方法 这里我们以美食杰为例,爬取它的图片,作为演示,这里只爬取一页。美食杰网址 1 首先我们在命令行进入到我们要创建的目录,输入 scrapy startproject meishi, 接着根据提示cd meishi, 再cd meishi, , 下来写 scrapy genspider mei meishij.net ,生成如图所示文件。 (关于以上命令的讲解不在这次写的...
python爬虫——scrapy+selenium爬取新浪微博及评论
本文主要对爬取过程中所用到的知识做简单总结,最后有项目链接。 一、项目简介 本项目利用python的scrapy框架+selenium模拟登陆微博来爬取带有关键字的微博及微博下面的评论(1 、2级评论)。 当时自己比较关注“小凤雅事件”,而微博又是舆论的战场,就想爬取“小凤雅事件”的相关微博以及评论,看看大家的关注点在哪里,于是就行动起来了。 下面是对主要技术的介绍。 二、scrapy介...
Python3[爬虫实战] scrapy爬取汽车之家全站链接存json文件
本博客来自徐代龙(蛇崽)的博客 昨晚晚上一不小心学习了崔庆才,崔大神的博客,试着尝试一下爬取一个网站的全部内容,福利吧网站现在已经找不到了,然后一不小心逛到了汽车之家 (http://www.autohome.com.cn/beijing/)很喜欢这个网站,女人都喜欢车,更何况男人呢。(捂脸) 说一下思路: 1 . 使用CrawlSpider 这个spider, 2. 使用Rule
scrapy爬取数据存入表格中
1、Pipeline:2、settings:3、items:4、spider:也可以用scrapy框架自带存储功能存储:存储json格式:scrapy crawl 项目名称 -o 项目名称.json -s FEED_EXPORT_ENCIDING=utf-8存储csv(表格)形式:scrapy crawl 项目名称 -o 项目名称.csv -s FEED_EXPORT_ENCIDING=utf-8...
Python使用request爬取拉钩网信息
通过cookies信息爬取 分析header和cookies 通过subtext粘贴处理header和cookies信息 处理后,方便粘贴到代码中 爬取拉钩信息代码 展示结果
【开源】scrapy爬取亚马逊商品信息
一、前言        最近的一个项目需要用到爬虫,虽然以前用JAVA也写过爬虫,不过实现的都是一些简易的功能,比如我开发的一个微信公众号(叫“妈妈再也不担心”,大家可以关注下),里面比如的NBA赛事查询功能,热播电影查询等。不过从许多论文里面提及的,以及很多人推荐的,好像python更适合做爬虫,又了解到python里面有个框架叫scrapy,所以最近想研究下这个,去爬取批量的数据。这次我先拿
从0开始基于python3用scrapy爬取数据
摘要: 本文主要介绍0基础从python3的安装到使用scrapy框架抓取某母婴电商的数据并简单分析。主要包括以下内容:      第一爬:官网 第一次爬取数据强烈推荐内网系统,免得一个代理问题就让激情退却了:   安装python3 下载地址:https://www.python.org/downloads/ 查看安装版本以验证安
scrapy shell 爬取一些网站不响应
在爬去京东某商品网页时,如https://search.jd.com/Search?keyword=%E6%83%A0%E6%99%AE&enc=utf-8&suggest=1.his.0.0&wq=&pvid=d66c3ae3039d42b09f015585015ef653    实际上用   https://search.jd.com/Search?keyword=惠普&enc=utf-8
Scrapy爬取京东商城华为全系列手机评论
本文转自:https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650342004&idx=1&sn=4d270ab7ca54f6f2f7ec7aca113993f4&chksm=87811487b0f69d91d2b3a072be22e50b436e342e05cea6c1e28c9ade4c814f8ba...
scrapy框架爬取数据入库(附详细介绍)
在论坛上看过很多的scrapy数据入库(mysql)的例子,但是我尝试之后总是出现一些莫名其妙的错误,搞得自己走了很多弯路,于是我将我认为是最简单易懂的方法和代码展示给大家,欢迎大家吐槽1.创建scrapy项目(安装scrapy框架和mysql数据库就不在这讨论了,论坛上也有很多),在这里我创建的项目名称是“testmysql”,命令(cmd)是“scrapy startproject testm...
python scrapy框架 爬取网页页数多时,造成数据为空
       在写爬虫时,发现一个问题(使用的时scrapy蜘蛛爬虫),获取某一个页面的数据时,使用css选择器,没有任何问题,但是当用到连续翻页时,页面张数大于5,就会出现,response正常,返回码为200,但是返回的数据为空,我在for循环中加入了time.sleep也没有用。        百度原因,发现是因为scrapy中默认的页面请求速度与数据下载速度过快,造成服务器返回的数据为空...
将scrapy爬虫框架爬取到的数据存入mysql数据库
使用scrapy爬取网站数据,是一个目前来说比较主流的一个爬虫框架,也非常简单。 1、创建好项目之后现在settings.py里面把ROBOTSTXT_OBEY的值改为False,不然的话会默认遵循robots协议,你将爬取不到任何数据。 2、在爬虫文件里开始写你的爬虫,你可以使用xpath,也可以使用css选择器来解析数据,等将数据全部解析完毕之后再items文件里面去声明你的字段 im...
requests爬取今日头条街拍的两种方法
  分析网页 今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。 这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from,这七种。 往下翻,在Query String Parameters中就能发现这些参数 往下翻,查看新的AJAX,点开NETWORK对比Q...
python爬虫 爬取今日头条信息
"""" 进入头条首页,在右边输入关键字,进入搜索页面,主要爬取搜索的到的图片以及图片的标题 """" """" python版本:python3.6.5 """" #手动输入搜索关键字和要爬取的页数,默认从第一页开始爬取 end_page = int(input('请输入结束页面:')) keyword = input('请输入查找
20170718 【学习记录】使用anaconda写爬虫
此anaconda中的python版本是3.6# coding:utf-8 # # 把qq.ip138.com/train/上面的列车时刻表抓取解析出来,输出在命令行显示,并存入一个文件train_time.text # import requests import time from bs4 import BeautifulSoup import randomBSLIB = 'html5lib
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python爬数据教程 python数据爬取教程