什么相当于SCRAPY中的CURL

I want to scrape a website by SCRAPY with AJAX PAGINATION, i scraped this web site by PHP by using CURL, i monitored the network by Firebug, with firebug we have a option "Copy for CURL" for POST REQUEST. My question is how can i do the same for SCRAPY.

my function in PHP:

   function forCurl($url,$refer, $jsessionid){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:34.0) Gecko/20100101 Firefox/34.0');
    $header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,";
    $header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
    $header[] = "Cache-Control: no-cache' --data 't%3Azoneid=forceAjax";
    $header[] = "Connection: keep-alive";
    $header[] = "Accept-Language: fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3";
    $header[] = "Pragma: no-cache";
      $header[] = "X-Requested-With: XMLHttpRequest";

  $header[] = "Keep-Alive: 700";
  $cookie = "JSESSIONID=" . $jsessionid. '; langueFront=fr; tc_cj_v2=%5Ecl_%5Dny%5B%5D%5D_mmZZZZZZKNLLMQOMROKJRZZZ%5D777_rn_lh%5BfyfcheZZZ%7B%7E%28%24%29H/*+%7E-%241%20H%21-ZZZKNLLMQOSQMMRNZZZ%5D777%5Ecl_%5Dny%5B%5D%5D_mmZZZZZZKNLLNNJJKNRRMZZZ%5D777_rn_lh%5BfyfcheZZZ%7B%7E%28%24%29H/*+%7E-%241%20H%21-ZZZKNLLNNKNJOJSKZZZ%5D777%5Ecl_%5Dny%5B%5D%5D_mmZZZZZZKNLLNNMLSNSKLZZZ%5D777_rn_lh%5BfyfcheZZZ222H%7B0%7D%23%7B%29H%21-ZZZKNLLNNMMLMJNJZZZ%5D777%5Ecl_%5Dny%5B%5D%5D_mmZZZZZZKNLLNOOJSKRKMZZZ%5D777_rn_lh%5BfyfcheZZZ%7B%7E%28%24%29H/*+%7E-%241%20H%21-ZZZKNLLNOOLSOMPNZZZ%5D777%5Ecl_%5Dny%5B%5D%5D_mmZZZZZZKNLLNOPJMROQLZZZ%5D777_rn_lh%5BfyfcheZZZ%7B%7E%28%24%29H/*+%7E-%241%20H%21-ZZZKNLLNOPMQSKNOZZZ%5D; _ga=GA1.2.487921595.1421941922; aurol=GA1.2.865695137.1421941922; __utma=239562643.487921595.1421941922.1422452658.1422454606.14; __utmz=239562643.1422443324.10.2.utmcsr=Sphere_myWebSite|utmccn=myWebSitefr_logo|utmcmd=Interne; kameleoonVisitIdentifier=rj1hnzh5ux1n2gxr/4; myWebSiteCook=\"869|\"; revelationDriveWin=2; myWebSite.hamon=1; __utmv=239562643.|1=visite_myWebSitedrive=239562643.487921595.1421941922.1422452658.1422454606.14=1; tosend=%7B%22p%22%3A%7B%22tracker%22%3A%22myWebSitedrive%22%2C%20%22url%22%3A%22rayon%22%2C%20%22mtime%22%3A1422455760000%2C%20%22ref%22%3A%22http%3A%2F%2Fwww.myWebSitedrive.fr%2Fdrive%2Frecherche%2Fbio%22%2C%20%22dest%22%3A%22http%3A%2F%2Fwww.myWebSitedrive.fr%2Fdrive%2FNice-Cote-dAzur-869%2FSurgeles-R41355%2FViandes-Volailles-41478%2F%22%7D%2C%22d%22%3A%7B%22dv%22%3A%22NA%22%7D%2C%20%22t%22%3A%7B%22iplobserverstart%22%3A%221422455762613%22%2C%22jsinit%22%3A%221422455763871%22%2C%22domload%22%3A%221422455764728%22%2C%22clicklink%22%3A%221422455817128%22%2C%22unload%22%3A%221422455817521%22%7D%7D; kameleoonExperiment-14570=86018/1422452656881/false; __utmc=239562643; rdmvalidation=1; layerDrivePromos=2; __utmb=239562643.19.10.1422454606; _gat=1; _gat_myWebSiteRollup=1; __utmt=1; __utmt_secondTracker=1; __utmli=toPage_14b30fac8d4_0';
  curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  curl_setopt($ch, CURLOPT_REFERER, $refer);
  curl_setopt($ch, CURLOPT_COOKIE, $cookie);
  $content = curl_exec($ch);
  curl_close($ch);
  return $content ;

i want to know how can i post the same parametres with SCRAPY, is that a good idea for scraping a website with ajax pagination?

i tried this:

yield Request(sousUrl, headers={'Referer':'%s' % url},  callback=self.parse_page)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dsf23223 2016-05-04 11:07
关注
In Python you can use PyCurl

PycURL is a Python interface to libcurl.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

自学Python第十六天-Scrapy框架创建爬虫
2022-07-08 10:22

runsong911的博客自学Python第十六天-Scrapy框架创建爬虫
Python vs PHP：哪种语言更适合网页抓取
2024-12-26 13:36

程序员阿凡提的博客让我们来探讨一下为什么您可能需要在下一个网页抓取项目中考虑使用 PHP。性能优势 PHP 以其快速的执行速度而闻名，尤其是在 Web 服务器环境中。如果您需要抓取大量页面或快速处理数据，PHP 的速度可能优于 Python。...
m1 mac 安装和使用 homebrew 解决 scrapy 运行时OpenSSL的问题
2022-04-03 14:06

木尧大兄弟的博客最近需要在 m1 mac 上用 scrapy 爬点数据，用 miniconda 装了个虚拟环境后，运行 scrapy shell 测试 https 请求时，报错如下： builtins.MemoryError: Cannot allocate write+execute memory for ffi.callback(). ...
Scrapy粗浅使用总结
2018-08-10 09:50

weixin_33777877的博客也就是说如果我们将自己的回调函数定义为parse，那么实际上相当于CrawlSpider自身的回调函数是不能执行的，相应的Rule也不会处理。最终的结果就和我们最早的抓取结果一样，只会调用parse函数处理当前页面。 ...
爬虫：request、scrapy、scrapy-redis的爬虫流程，匹配机制：xpath、正则、css选择器，反爬虫策略
2020-01-09 11:36

little star*的博客文章目录一、python、PHP、Java、C/C++爬虫的比较二、python爬虫基础知识1....验证码处理5.scrapy框架（scrapy、pyspider）安装scrapy框架scrapy框架架构项目文件作用CrawlSpider爬虫使用twisted异步保存M...
建议开发者全局存储与更新access_token php,PHP取微信access_token并全局存储与更新...
2021-04-27 01:59

吐提古丽热杰的博客来源：http://www.zcphp.com/html/weixinkaifa-show-20.html官方的说明：access_token是公众号的全局唯一票据，公众号调用各接口时都需使用access_token。...众所周知，在微信开发中access_toke...
PHP-JAVA-Python-JavaScript框架介绍&CVE-2018-1002015/CNVD-2018-24942/2x-rce/Spring命令执行/CVE-2021_21234漏洞复现
2022-07-26 14:39

无聊的知识的博客这样用户用起来自然轻松许多，但是我们这电脑没有软件其他，会导致很多人用一样的电脑，太死板了就个了一个浏览器什么都不能安装，这适合呢你想自定义某个部件将需要修改这个框架，就需要用到库了，而库就如自己组装...
大规模并发采集——分布式爬虫
2018-07-10 20:09

on_the_road_2018的博客分布式系统什么是分布式系统？分布式系统就是把一些计算机通过网络连接起来，然后协同工作协同工作需要解决两个问题：任务分解把一个问题拆解成若干个独立任务，每个任务在一台节点上运行，实现多任务的并发执行...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客七、scrapy爬虫框架 scrapy的概念和流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_redis原理分析并实现断点续爬以及分布式...
巧用Scrapy：开启热门网站数据抓取之旅
2025-06-12 10:29

奔跑吧邓邓子的博客本文系统解析基于Scrapy框架的...此外，还涵盖性能优化（多线程异步、爬取频率调整）、服务器部署及运行监控等进阶内容，帮助读者从入门到实践掌握 Scrapy 爬虫在数据采集场景中的全流程应用，兼具技术深度与实操价值。
没有解决我的问题, 去提问

什么相当于SCRAPY中的CURL

1条回答 默认 最新

1条回答默认最新