SCRAPY模拟登陆链接重定向问题

scrapy模拟登陆不能抓取到数据
模拟登陆没有跳转到抓取页面
真实去登陆账号不能再次的登陆了
不知道问题出在哪里求大神解答

 # -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request, FormRequest
from scrapy.selector import Selector
from scrapy.conf import settings

class faxinSpider(scrapy.Spider):

    name = "faxin"

    allowed_domains = ["www.faxin.cn"]
    start_urls = ["http://www.faxin.cn/keyword/index.aspx"]

    headers = settings.get('HEADERS')

    def start_requests(self):
        return [Request(
                    url = "http://www.faxin.cn/login.aspx", 
                    meta = {'cookiejar' : 1},
                    headers = self.headers, 
                    callback=self.post_login
                      )]

    def post_login(self, response):
        viewstate = Selector(response).xpath('//input[@name="__VIEWSTATE"]/@value').extract()[0]
        self.logger.info("--viewstate--:%s", viewstate)
        return [FormRequest.from_response(
                    response, 
                    meta = {'cookiejar' : response.meta['cookiejar']},
                    headers = self.headers,
                    formdata = {
                        '__VIEWSTATE' : viewstate,
                        'WebUCHead_Special1$hiddIsLogin' : '0',
                        'user_name' : '****',
                        'user_password' : '****'
                            },
                    callback = self.pares_page,
                        )]

    def after_login(self, response):
        for url in self.start_urls :
            yield Request(url, 
                           headers = self.headers, 
                           meta = {'cookiejar' : response.meta['cookiejar']}, 
                           callback = self.pares_page)

    def pares_page(self, response):
        url_ = response.url
        self.logger.info("---url---: %s", url_)
#         a = Selector(response).xpath("//a[@class='login']/@title")
#         self.logger.info("---username---: %s", a)
        a_ = Selector(response).xpath("//div[@class='t_box']/ul[@class='clearfix']/li")
        for a in a_:
            print a.xpath("a/@href").extract()[0]

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-08-08 08:40
关注
https://segmentfault.com/q/1010000002431559

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy安装失败的问题 python 有问必答
2021-04-17 21:20

回答 4 已采纳 can't find Rust compiler，找不到Rust编译器
scrapy爬虫不自动翻页问题爬虫
2021-11-14 09:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 14:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
利用scrapy进行模拟登录实验
2021-07-21 09:09

代码魔法师！的博客 scrapy请求时携带Cookies2.1 什么是cookies2.2 cookies的组成2.3 抓取cookies数据2.4 代码实现scrapy携带cookies请求3. 使用FormRequest发送POST模拟登录3.1 GET请求和POST请求的区别3.2 抓包过程及代码实现 1. ...
关于scrapy 无法启动的问题 python
2022-08-22 21:07

回答 2 已采纳这是在两个不同py文件，要使用CnblogspiderItem需要导入另一个文件在Cnblog...py文件开头导入另一个文件import Item（反正就是另一个文件的文件名，图片模糊有些看不清）
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
【scrapy】模拟登陆知乎
2016-03-30 08:23

景珏的博客这个网上有个通用的教程，然而为这个教程已经花费了太多时间进行调试，和知乎上的朋友交流，很多人也是这个地方遇到了问题，最后的结果。...问题1：知乎的登陆url不再是/login了，根据email和phonenum分
scrapy框架问题报错？ python
2020-03-22 13:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 18:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
新版知乎模拟登陆
2018-05-31 11:13

Eric_keke的博客永久重定向/临时重定向 403 没有访问权限 404 灭有对应的资源 500 服务器错误 503 服务器停机或正在维护 3.分析知乎登录 3.1 找到登录请求URL 通过尝试...
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy之xpath解析豆瓣及豆瓣模拟登录
2021-04-08 22:17

荻风溪畔的博客 round1:爬取的是用户个人介绍，本来以为直接response.xpath('//span[@id="intro_display"]/text()'.get()不香吗，结果别人整个链接，然后只能爬取博客地址。如果直接用extract(),又只会返回列表。这边我用user['...
scrapy爬取某网站,模拟登陆过程中遇到的那些坑
2018-04-13 22:38

weixin_33850890的博客接下来就是写代码,模拟登陆.很快就写好代码了,然后开始测试.(还记的上面说过的哪两个校验值吗? 这两个值都是动态的,可以用正则从登陆页面提取到). 部分代码如下: name = "form" download_delay = 0.18 ...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

SCRAPY模拟登陆链接重定向问题

1条回答 默认 最新

悬赏问题

1条回答默认最新