2 qq 37310408 qq_37310408 于 2017.01.14 17:26 提问

[求助] 请问python抓取网页需要登录,怎么寻找post data?

用python抓取需要登陆的网页,需要post data数据。我用httpfox工具,可以找到登陆豆瓣的post data,如下图

图片说明

在写脚本的时候,可以知道form_email 和form_password这样的关键词,但是有的网站却不知道怎么找?
有的网站却根本不显示,该怎么办?
谢谢

1个回答

oyljerry
oyljerry   Ds   Rxr 2017.01.14 17:29

有些可能不是用post方式。还可以用浏览器的network工具来观察登录的网络请求

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
使用C#抓取页面----GET方法,POST方法,抓取登录页面
为了简单实现,将不附加其他请求信息,如HEAD中的用户浏览器信息等。   一、使用GET方法     使用GET方法应该算是最简单,最好操作的。以开心网的用户首页为例,网址统一为:http://www.kaixin001.com/home/?uid=xxxxxxx。其中的xxxxxxxx表示该用户的用户ID。用户首页,在GET方法,没有加入任何其他请求数据时,请求会进行重定向,定向到开心网的
python爬虫---post抓取查询数据简单说明
一、做python爬虫,在爬取数据前,一般需要对网页进行简单分析。这里推荐用火狐的HttpFox,简单实用。 二、爬取查询数据,查询类型的,说明是要post相关数据过去才能get到想要的数据。        如下图,巨潮信息网的,通过查询显示想要的数据,然后抓取下来。         通过HttpFox分析,要得到相关的数据,post过去的数据相当复杂。如下面这一大串: stoc
第九章、通过表单和登录抓取
第九章、通过表单和登录抓取 当你跨过了网络爬虫的基础知识第一个问题就来了:“我如何访问登录界面后面的信息?”网络是日益增长的社交媒体和用户生成内容的相互作用。表单和登录是这类型网站的一个几乎无法避免的组成部分,幸运的是,他们也比较容易处理。 到目前为止,我们爬虫中大多数的与服务器交互的例子只包括使用HTTP的GET方法请求信息。在本章中,我们将重点放在给web服务器推送信息进行存储和分
python—如何使用post进行登录操作与非对称加密的破解
。,。笔者最近正在学习网络爬虫,而在爬取数据的过程中,登录是一个很棘手的问题,但有一些信息却只有登录之后才能获取到。在课程的学习后,我也查看了一些网上关于程序如何处理登录的文章,小有收获,作为初学者,文中的错误和不足希望不吝指教。        在设计爬虫程序处理登陆问题的时候,总的方式有两种,一是使用selenium模拟人的操作,由于selenium可以使用html和script的代码,我们可
Python网络爬虫(Get、Post抓取方式)
简单的抓取网页import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read()直接将URL保存为本地文件import urllib.request url="http://www.xxxx.com/1.jpg" urllib
[python网络爬虫]表单和登陆爬虫
当你想编写更为复杂的网页爬虫的时候,你面临的第一个问题也许会是:“如何获取登陆页面后的信息?”,因为网络已经飞快地向互动、社交媒体、用户生成内容方向发展。表格和登陆就成为这些类型网站几乎不可或缺的主要组成。幸运的是,表单和登陆还是相对比较容易处理的。 截至当前,在我们之前的爬虫示例中,绝大部分与服务器的交互都是采用了HTTP GET方式去获取信息的。而在本章,我们所关注的是如何通过POS
Python爬虫之表单和登录窗口采集
Python自带的urllib库实现了HTTP基本的GET功能,当我们想要实现比GET更多的事情时,那么就需要去寻找支持Python标准的第三方库了。   Requests库可以成为你的选择,它可以处理复杂的HTTP请求,cookie,header等内容,是一个第三方库。   可以使用Python包管理器,执行命令pip install requests安装Requests库。   浏览器的地
需要登录的网站爬取及formdata获取
1、查找from data提交的信息,构造表单信息:payload = { "username": USERNAME, "password": PASSWORD, ....... }2、代码如下:# coding=utf-8 import requests from lxml import html # 登录页面url LOGIN_URL = "https://auth....
python爬虫之urllib2登录并抓取HTML页面
Http协议相关知识 验证码实现机制与session的工作原理 urllib2库的使用
python爬虫学习之post数据的传送
数据传送之POST与GET的区别这里就不说了吧? 一般GET传送的数据直接加在url后面,一目了然。但不安全,比如,我用url?password=123。这密码都出来了。 输入表单密码还隐藏一下呢。 所以数据传送一般分为POST和GET,这里先聊python是怎么通过post传值的。有啥用? 比如我们想知道我们的邮箱有没有人给我们发邮件,而我有三个邮箱,一个个的去登录有点麻烦。我可不可以用