flask+scrapy的爬虫问题

刚刚开始学习爬虫,现在已经可以通过scrapy crawl myscrapy的方式启动一个爬虫,

现在我想实现这样一个功能:用flask定义一个接口,别人调用这个接口的时候传递一个
url参数,拿到这个参数之后自动启动爬虫进行爬取数据,爬取到的数据以json数组的形式
返回给调用接口的人。想问下大家有什么实现思路吗?拜托了,感谢各位。

3个回答

你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用
https://doc.scrapy.org/en/latest/topics/spiders.html#spider-arguments ,只是大概记得有这么个用法 = =
返回数据的话 提交一个表单试试? 方法也是如上

fenghui187
小鬼web 好的,多谢
一年多之前 回复

1.调用者也作为web服务开放callback-url
2.爬虫web服务crawl-url接收两个参数 target-url,callback-url
3.调用者调用爬虫的服务接口crawl-url?target= target-url&callback=callback-url
4.爬虫服务在crawl-url对应的处理器中爬取并解析所需数据,完事之后通过httpclient调用callback-url,将解析的数据传送

flask实现web API,拿到传入的url,传递给scrapy,得到爬虫的结果后,用json方式返回数据。

oyljerry
oyljerry API可以用subprocess等启动另一个py脚本
一年多之前 回复
fenghui187
小鬼web 正常情况下是利用scrapy crawl myspider这样的语句启动scrapy的,利用api的话如何启动项目呢?
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python,scrapy爬虫问题
先贴上我用scrapy写的爬虫运行日志:rnrn2016-09-01 14:39:48 [scrapy] INFO: Crawled 71 pages (at 71 pages/min), scraped 6969 items (at 6969 items/min)rn2016-09-01 14:40:48 [scrapy] INFO: Crawled 155 pages (at 84 pages/min), scraped 15150 items (at 8181 items/min)rn2016-09-01 14:41:48 [scrapy] INFO: Crawled 238 pages (at 83 pages/min), scraped 15251 items (at 101 items/min)rn2016-09-01 14:42:48 [scrapy] INFO: Crawled 317 pages (at 79 pages/min), scraped 15263 items (at 12 items/min)rn2016-09-01 14:43:48 [scrapy] INFO: Crawled 398 pages (at 81 pages/min), scraped 15344 items (at 81 items/min)rn2016-09-01 14:44:48 [scrapy] INFO: Crawled 483 pages (at 85 pages/min), scraped 15428 items (at 84 items/min)rn2016-09-01 14:45:48 [scrapy] INFO: Crawled 570 pages (at 87 pages/min), scraped 15430 items (at 2 items/min)rn2016-09-01 14:46:48 [scrapy] INFO: Crawled 652 pages (at 82 pages/min), scraped 15449 items (at 19 items/min)rn2016-09-01 14:47:48 [scrapy] INFO: Crawled 732 pages (at 80 pages/min), scraped 15527 items (at 78 items/min)rnrn问题是:从日志可以看出,前两分钟效率很高,但是从第三分钟开始性能突然下降,跟着的cpu占用也突然下降。也试过修改一些配置参数,检查了自己写的代码;但是都未发现、解决问题,求大神帮助分析一下这是什么原因。rnrntips:楼主刚刚接触爬虫,并且打算在这个道路上继续走一下,希望广交对爬虫同样感兴趣的朋友,共同学习交流经验。
Scrapy爬虫——壁纸爬虫
说在前面: 今天把之前写过的壁纸爬虫拿出来用了一下,发现是很久以前写过的,用的还是python基本库urllib去做网络请求的,正好最近在学scrapy,于是就用scrapy框架重新写了一遍。 环境要求: python:3.6 Scrapy:1.51 正式开始: 感谢壁纸来源Wallhaven 网页分析 通过分析可以得知,只需要给https://alpha.wa...
Scrapy爬虫
Scrapy爬虫框架,一种很强大的 python 爬虫框架,初学python爬虫者必知
scrapy爬虫
感觉现在爬虫很火,搜索有关于python类容总是弹出关于爬虫的信息,我也感觉爬虫这个东西很有意思所有花了一点时间来学习爬虫,现在简单的记录一下爬虫的环境安装,爬虫爬取过程,静态页面爬取案例,动态加载页面爬取。使用scrapy框架来爬取数据会很简洁,也比较易学,我使用的是scrapy框架爬取数据。1.环境配置(1)安装python3.4,3.5,3.6都行,(2)安装scrapy(pip insta...
Scrapy爬虫(一)——你的第一个Scrapy爬虫
Scrapy简介Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scrapy
scrapy 爬虫
基于scrapy框架的爬虫代码,示例包括一些网站二级爬虫。
Scrapy爬虫(二):爬虫简介
Scrapy爬虫(二):爬虫简介Scrapy爬虫二爬虫简介 什么是爬虫 爬虫的价值 最简单的python爬虫 爬虫基本架构 scrapy环境配置什么是爬虫?爬虫的本质就是将互联网网页(数据)下载下来的程序。 爬虫通常为PC端爬虫、以及移动端爬虫(接口数据窃取 抓包 wap站),当然我们更多的是使用PC端的爬虫。 如下图可以看出爬虫相对于人浏览网页的不同,可以在脑袋里有个简单的概念。 通过对互联
scrapy爬虫之反反爬虫措施
1.禁用Cookie部分网站会通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。在Scrapy中,默认是打开cookie的 (#COOKIES_ENABLED = False)设置为:COOKIES_ENABLED = False (cookie启用:no),对于需要cookie的可以在请求头中headers加入cookieclass LagouspiderSp...
python爬虫----scrapy爬虫之天气预报
说到爬虫自然离不开scrapy 那么这次就用scrapy来写一个小爬虫 这次的目标是爬取中国天气网:tianqi.com上的中国各省市当日天气情况 关于scrapy的详细操作和内容就不一一介绍了,简单说一下这次爬虫的步骤吧 操作都是在cmd里用命令行的形式输入 创建一个项目:scrapy startproject tianqi cd tianqi 进入到这个文件
python数据分析之爬虫六:Scrapy爬虫
一 Scrapy爬虫框架介绍 框架简介 是基于python实现爬虫的重要技术路线。scrapy不是一个函数功能库,而是一个爬虫框架。 包括7个部分 :5+2结构  5个主题部分,2个中间键。 5个主模块:Spiders+    DOWNLOADER+    ENGINE+    SCHEDULER+     ITEM PIPELINES Spider与 ENGINE   ENGINE...
爬虫(8)-- scrapy & 可视化爬虫
安装: pip install scrapy (1)启动项目 安装好 scrapy 后,我们可以运行 startproject 命令生成该项目的默认结构。具体步骤为:打开终端进入想要存储 scrapy 项目的目录,然后运行 scrapy startproject <project name> 。比如使用 example 作为项目名 scrapy startproject exam...
爬虫爬虫 - 知乎的爬虫 (Scrapy 框架)
背景: 前段时间适应了工作环境之后就寻思开始自己捣鼓点东西玩玩, 于是想啊既然网上这么多爬虫教程什么的,那咱也来凑凑热闹把,毕竟我也很喜欢搞点Data玩一玩。但是拖延了好久,这不趁着回来办签证这功夫赶紧把这个push了! 开发的环境: Mac OSX, Python 3.5, Scrapy 框架   Tips:  为什么使用 Python 3.5? Python
flask实现爬虫接口调用
公司让搭建电商类网站的爬虫平台,我用flask简单写了一个接口供同事调用爬虫程序,接口写的并不够好在我看来,我在优化中,后期会把优化好的代码在上传. import pymongo from flask import Flask,jsonify,request from flask_cors import CORS from gevent import monkey from gevent.pyws...
爬虫进阶:Scrapy 入门
进阶前言   学Py和写爬虫都有很长一段时间了,虽然工作方面主要还是做Java开发,但事实上用python写东西真的很爽。之前都是用Requests+BeautifulSoup这样的第三方库爬一些简单的网站,好处简单上手快,坏处也明显,单线程速度慢,偶尔想要跑快点还得自己写多线程或者多进程。其实早已久仰Scrpay大名,无奈一直没有主动去接触,前不久买了一本相关的书籍,看完之后便陆陆续续试手了几...
第一个scrapy爬虫
scrapy目录结构如下 我们要爬取的是读书网里面的书名,作者,和对书的描写 首先我们要定义爬取数据的模型,在items.py文件中 import scrapy class MoveItem(scrapy.Item): # 定义爬取的数据的模型 title = scrapy.Field() auth = scrapy.Field() desc = ...
Scrapy爬虫快速入门
一、Scrapy爬虫框架简介Scrapy是一个用Python写的Crawler Framework,简单轻巧,并且非常方便。Scrapy使用Twisted这个异步网络库来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活地完成各种需求。二、Scrapy爬虫架构中的各大组件1. Scrapy引擎 (Engine)引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。2.调度器...
Python之scrapy框架爬虫
SCRAPY命令详解(可能是如今最全最简单的scrapy命令解释)     明天上班,又要爬网站,现在每天做的工作有50%的时间爬网站,40%的时间清理数据,10%写报告。若想自学数据分析,侧重点很重要,我当初把大部分经历放在了python的pandas numpymatplotlib上面,其他时间一部分放在sql身上,一部分放在了业务上,今天sh顺便总结了一下scrapy 所用的命令,...
Scrapy框架----爬虫读书笔记
制作Scrapy爬虫,最基础的需要四步:新建项目scrapy startproject Movies 自动生成一个名为“Movies”的爬虫项目scrapy genspider getmovies movie.douban.com自动生成一个名为“getmovies”的爬虫整个项目目录结构如下:    定义目标数据编辑items.py文件,定义需要获取数据的结构,该结构操作类似字典操作import...
scrapy写爬虫
当您需要从某个网站中获取信息,但该网站未提供API或能通过程序获取信息的机制时, Scrapy可以助你一臂之力。 安装转载自:在centos7和centos6下安装scrapy首先准备环境>yum install gcc libffi-devel openssl-devel libxml2 libxslt-devel libxml2-devel python-devel -y安装easy_insta
Scrapy爬虫(未完)
Scrapy编写爬虫步骤: 1.创建一个Scrapy项目 2.定义Item容器 Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外的保护机制来避免拼写错误导致的未定义字段错误 3.编写爬虫 爬虫类Spider是用户编写用于从网站上爬取数据的类。其中包含了一个用于下载的初始URL,然后是如何跟进网页中的链接以及如何分析页面中的内容,还有提取生成item的方法
scrapy爬虫实例代码
此部分代码是使用scrapy框架进行爬虫的实例,按照以下文章分享的内容进行整理的https://cuiqingcai.com/3472.html,欢迎有兴趣的同学进行下载学习。
scrapy 爬虫练习
自己初学scrapy框架,练习爬取豆瓣电影top250信息
Scrapy豆瓣爬虫
scrapy 爬虫 python
Scrapy爬虫笔记
Scrapy爬虫笔记 Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得。 1.安装 通过pip或者easy_install安装: 1 sudo pip install scrapy 2.创建爬虫项目 1 scra
python爬虫scrapy安装
自己在安装scrapy的时候,也是碰了很多壁,特把自己遇到的问题写出来,大家引以为戒。 我是搜了很多资料,安装scrapy的,网上的安装教程大多差不多,中间缺了很多详细的步骤,我的安装是看着小甲鱼的安装 附上其视频连接,http://v.youku.com/v_show/id_XMTcxNDUzOTMyMA==.html?from=s1.8-1-1.2&spm=a2h0k.8191407.0.
python scrapy 爬虫 未完待续
0. 爬虫Scrapy 轻松定制网络爬虫0.1 爬虫的两部分:1.下载Web页面 最大程度的利用本地带宽 调度针对不同站点的Web请求以减轻对方服务器的负担 DNS查询 遵循一些行规(如robots.txt) 2.对网页的处理 获取动态内容 Spider Trap 内容去重 1.scrapy1.1 安装scrapy pip install scrapy pip install servi
爬虫之 scrapy 框架总结
写在前面的话: 最近重新学了一下scrapy框架,之前没学好,现在总结一下…以便以后重装不需要重新找资料 一. 安装 需要三个库 lxml, twist, pywin32 一般前两个都有 pip install pypiwin32 (有whl文件) 如果有问题输入下面这句 pip install -I cryptography 二. 文件类型 1. items.py 存放数据模型 三个...
scrapy爬虫之模拟登录豆瓣
简介 在之前的博文python爬虫之模拟登陆csdn使用urllib、urllib2、cookielib及BeautifulSoup等基本模块实现了csdn的模拟登录,本文通过scrapy模拟登录豆瓣,来深入了解下scrapy。 豆瓣登录需要输入图片验证码,我们的程序暂时不支持自动识别验证码,需要将图片下载到本地并打开以进行人工识别输入到程序中。 分析豆瓣登录 1.分析豆瓣登录页的样式
python爬虫之Scrapy爬虫框架
1、windows下安装Scrapy框架cmd进入命令行模式pip install scrapy然后就是静静的等待安装完成常见问题:pip版本有可能太旧,此时只需要更新一下pip就好                (命令行中输入更新代码:python -m pip install --upgrade pip)2、Scrapy框架的基础知识2.1 基本组成:spiders为核心代码,主要是一些爬虫的...
Scrapy通用爬虫
通用爬虫 主要时通过继承 CrawlSpider, 定义一些爬去的规则来实现页面的提取 CrawlSpider 它继承自 Spider 类,除了spider的所有方法和属性之外,它还提供了几个特殊的属性 rules 爬取的规则,包含一个或者多个Rule的对象的列表,每个 Rule 对爬取网站的动作都做了定义 parse_start_url 它时一个可以重写的方法,当s...
Python3 爬虫之 Scrapy 快速入门
初识 Scrapy Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说, 网络抓取)所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services)或者通用的网络爬虫。 Scrapy 环境搭建 1. 安装 Python 3....
爬虫:Scrapy常用命令
                                                              Scrapy常用命令 命令 说明 格式 startproject 创建一个新工程 scrapy startproject<name>[dir] genspider 创建一个爬虫 scrapy genspider [op...
Scrapy IT之家评论爬虫
引言 最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列 https://github.com/Ehco1996/Python-crawler 博主写的对新手很友好,很适合入门。 我写这篇文章的目的是记录一下在学习他的 从零开始写Python爬虫 — 爬虫应用:IT之家热门段子(评论)爬取 中做的改进和遇到的问题。 思路 和原文爬取特定分类新闻下的热评不同的是,我是爬取IT之家首页的最热排...
相关热词 c#部署端口监听项目、 c#接口中的属性使用方法 c# 昨天 c#func链接匿名方法 c#怎么创建文件夹 c#从键盘接收空格 c#da/ad c#部门请假管理系统 c#服务器socket c# 默认的访问修饰符