python写爬虫遇到"脚本可访问"属性的cookies怎么办? 5C

最近在用python做网页模拟登陆的时候遇到一些问题。
1.cookies方面的:
当访问某个网页的子页时候往往需要发送一些cookies,这些cookies大多数能在response headers里面找到(set cookies),但是有一些属性是“脚本可访问”的却没有在在headers里面找到(即使已经清空了缓存的该网站的所有cookies),想知道这些cookies是怎么来的。JS脚本里面生成的吗?在python里面应该要怎么样得到这些cookies?

2.关于用post发送payload的问题:
在开发者工具里面发现网页发送的payload是分层次的而不是并列出现(见下图),这种情况在python里面写的时候要用什么格式写?
图片说明
3.Query String Parameters是什么?

刚开始学习爬虫不久,对网页结构了解不是很深,觉得先前使用开发者工具分析网站的方法不是很正确,希望大神指点迷津。

1个回答

1你最好给一个网站,可以帮你分析你说的cookie怎么来的,因为脚本也可以附加cookie的。

2你的payload看上去好像是指json格式的post data

3Query String是指www.abc.com/page?id=xxx&name=yyy中,问号后面的那些键值对。(比如id和name)

JAJAJAJarvis
JAJAJAJarvis 不好意思最近期末复习所以没及时看回答。 多谢解惑,第三条我已经理解了。 然后关于第一条:网站是 seller.shopee.tw 。我在js里面搜索关键词 SPC-CDS和这root-cstftoken这两个cookies的时候发现一个代码量极其庞大的js里能看到相关的操作Cookies.set,但是代码太大了。 关于第二条:图片上的payload用json写的话是不是只要写入第一行的字典就行了?第二行和第三行的东西是怎么来的? 再次表示感谢
大约一年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
360webscan检测脚本可绕过
360webscan检测脚本可绕过2014-05-27     我来说两句       作者:phith0n收藏    我要投稿这个漏洞暴露出一个细节问题,可能会影响很多cms。这个靠大家发掘了。 借用cmseasy中的360webscan来说明。 其中有一个白名单函数: ?12345678910111213141516171819202122232425262728293031323334353
爬虫遇到注册登录怎么办
想用jsp写一个简单的爬虫,很简单的那种,但是不知道爬虫遇到注册和登录该怎么办?
脚本可调用的com组件2
说明; http://blog.csdn.net/foolpanda1168/archive/2009/07/08/4329897.aspx
python爬虫遇到的坑
一.     UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8a in position 9509: i错误是应为被压缩了
python爬虫遇到的问题
最重要的是错误查看 查看端口状态命令:netstat -apn 用于查看mysql的端口是否开启的是3306 发现mysql的连接状态如图 可以看到本地端口是127.0.0.1:3306 需要修改mysql的bind-address:找到/etc/mysql/mysql.conf.d/mysqld.cnf这个文件中,有一行是 需要改为0.0.0.0 即接收任何ip的连接 并且...
Python爬虫--访问互联网
使用urllib包    urllib.request.open()打开网页 使用encode()decode()解码 •URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path /[;parameters][?query]#fragment •URL由三部分组成: –第一部分是协议:http,https,ftp,file,
python爬虫 爬虫的网站源码不齐全怎么办
http://192.168.101.213:7027/swagger-ui.html#/26631209343164929702rnrn用f12打开看到的源码rn和用beautifulsoup get到的源码不一样 没法进行爬取
python爬虫写文件编码
情况介绍  最近需要爬取网页上的内容,并且保存下来,在把抓取到的信息写入文件的时候,会出现乱码,需要做转码等处理,用的是python  解决的思路大概是这样的:  1. requests.get()获取网页的内容   2. 根据网页,获取编码方式   3. 解码后,统一用utf-8的编码写入文件内,因为gbk编码的时候,查看文件均是乱码代码import requests from bs4 i
用Python写爬虫
本书讲解了如何使用Python来编写爬虫程序,内容包括网络爬虫简介!
用python写爬虫
用python写爬虫
python 3.5 写的爬虫
debug一晚上,终于把爬虫软件终于可以用了。明天修改后上代码。
python 写爬虫
http://www.zhihu.com/question/20899988 参考这个知乎的答案 用requests and bs4 轻松爬取静态页面 作者:挖数 链接:http://www.zhihu.com/question/20899988/answer/96904827 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 以
Python写爬虫思维导图
总结了利用Python 编写爬虫的常见方法,并整理成思维导图
写Python爬虫的准备工作
写Python爬虫的准备工作学习Python也有一段时间了,前段时间开始搞爬虫,刚开始真是头再铁也撞出血来。不过经过一段时间的摸索,总是是基本入门了,以后的路只能慢慢爬了。今天就来总结下开始爬虫之前,需要做什么准备工作,同时也是作为第一篇博客,激励自己不断学习,不断爬行。 学习爬虫之前,你需要了解: Python基础知识 爬虫基础知识 xpath的使用 学会使用爬虫框架 Debug的基本技能
python写简单爬虫
利用python写简易爬虫
python 访问属性和属性装饰器
python 访问属性和属性装饰器
Python爬虫--使用cookies登录豆瓣网
用python做网络爬虫时,有时需要登录某些网站。 例如使用requests请求登录豆瓣网的时候需要输入用户密码,可能还需要输入验证码,比较麻烦。 现在在请求豆瓣网链接www.douban.com的时候,使用post加上cookies,可以不用输入账号和密码直接登录。 方法如下: 打开浏览器,打开豆瓣的主页,按下键盘上的F12键(打开浏览器的开发者工具),此时输入账号和密码登录豆瓣网。查看...
python爬虫收集cookies简单模仿登录
requests import requests r = requests.post('http://xx.xx.xx.xx/login!doLogin.action', data=data) cookies = r.cookies.get_dict() e = requests.post('http://xx.xx.xx.xx/login!doLogin.action', data=data,c...
写爬虫遇到坑和总结
最近一直在使用scrapy编写各种爬虫,遇到一些坑,下面来总结一下,以免下次遇到又花费很多时间 (1) 我们在请求前拼接headers时,并不需要把所有request headers都拼接上,可以使用在线http请求,如http://coolaf.com/去测试比如下面refer只要截取前面就可以,后面参数可能是动态生成的,对每次请求都一一对应的,只能适用一次请求,所以一次要爬取很多页面就...
python爬虫遇到403错误
这段时间我很想去p站爬一爬,之前有试过,但都失败了,有一次用phantomJS尝试,结果卡死在登录页面,太复杂了。有一次卡死在编码上,一直无法获取到页面。这次是卡死在403上,我获取了图片的链接,正要下载时弹出403错误,图片在浏览器上也打不开,我还以为是网站把我的ip封掉了,就放弃了,后来听一位大神说,有的时候需要向网页发送一些请求头吃才能下载东西(我是第一次听说urllib.request.u...
linux 下python爬虫遇到的问题
1.系统centos7 2.同时安装了python2和python3. 3.使用的Pycharm 用virtualenv创建了python3,进行爬虫的尝试。但是遇到了不存在类似No module named 'bs4’的错误 解决No module named bs4 https://www.cnblogs.com/xisheng/p/7856334.html 解决pycharm问题:modul...
python 爬虫 pyspider遇到的问题
pyspider on_start函数中 n如果url改变,写个循环判断之类的会自动在左面生成所有分页路径,但我这个是ajax请求,url不变,只是参数中的分页参数在变,我该如何写才能让左面生成分页请求
python属性访问
1. 使用特殊函数__getattribute__,__getattr__,__setattr__,__delattr__ 当想要获得(get)属性时,先访问__getattribute__,如果对象不存在该属性,则继续访问__getattr__ 当定义或者修改一个属性时,访问__setattr__ 当删除一个属性时,访问__delattr__ >>> class C: def _
python属性访问的相关内容
#-*-coding:utf-8 -*- ''' 属性访问的相关内容 __slots__的用法 属性的动态绑定 ''' from types import MethodType class Stduent(): classname='student' #类的属性 __slots__ = ('name', '__age','__score','study') # 用tuple定义
Python学习:属性访问
1. 通常以属性(.)访问 class C: def __init__(self): self.x = 'X-man' 2. 通过property()函数访问 class Test: def __init__(self, size=10): self.size = size def getSize(self): ...
python爬虫工作遇到的问题
1,redis 的强制关闭导致磁盘不可写入,,flush
自学Python爬虫遇到的一些问题
1.Python中三引号的问题(""")    起到换行的作用
PYTHON属性访问
1
python属性和方法的访问
以下的讨论都限于,新式类(个人认为最好限于新式类) 1,python一切皆对象 除了object和type,两个逆天的存在,不是说它们不是,而是它们更高级一点。 第一个区分的就是对象之间的关系,由__bases__和__class__两个主线来关联完成。 2,属性的分类(作者自己的分类,仅供参考) Python-provided属性和用户属性: Python-provide
爬虫入门-使用python写简单爬虫
从第一章到上一章为止,基本把python所有的基础点都已经包括了,我们有控制逻辑的关键字,有内置数据结构,有用于工程需要的函数和模块,又有了标准库和第三方库,可以写正规的程序了。 python可以做非常多的事情,最火爆的事情应该是大家一直都在讨论的爬虫,这里编写一个简单的爬虫例子,它能够真正的运行,但主要的目的是在提高对之前知识点的理解和熟悉python如何编写简单工程。 编写一个爬虫,爬取w
在脚本里访问表单
如下所示:rn<%@ language=vbscript>rn....rnrn...rnrn<%rn dim irn i=10rn '想在这里把i的值赋给上面textbox的value,能做到吗?该如何做呢?rn%>rn....rnrn如上面的注释所述,可以做到吗?怎么做呢?(最好用vbscript脚本实现)rn
python写一个爬虫(1)
寒假自己通过视频学习python3的一些基础性的内容,寒假就要结束了,在这里写一个小程序算是一个阶段性的成果了吧,在这里打算写一个小爬虫,爬取网络上一部小说的内容,(因为小说的字数较多,跑起来应该感觉很不错吧)在这些写一下要实现的功能。 1、通过给定小说的第一章的网址,来爬取该小说的数据,同时找到下一章的url进行下一章的爬取。 2、把小说的题目爬取到,打印到屏幕上 3、把小说每一章的题目和内
python写一个爬虫(3)
6、正文 终于到了正文的解析了: 比较简单:zb=r'<div id="content"><div id="adright"></div>(.*?)<div' mainBodyL=re.findall(zb,DData,re.S) mainBody=mainBodyL[0] mainBody=mainBody.replace('<br />','\n') main
Python写的校园网自动登录爬虫
可以用于学习爬虫的基础操作技巧,适合初学者,更改账户密码即可于校园网实现自动登录。需更改请求头与postdata才能于其他网站使用,该代码为北科校园网的自动登录
python写的一个简单的爬虫
这是一个简单的多线程的小爬虫,可以实现抓取并下载csdn上任何一个人的文章,可以修改spider改成你想爬的网站的内容。
用Python写爬虫——初体验
用Python写爬虫第一篇 写在前边的话,首先问问自己为什么想写爬虫? 我的回答: 也许是喜欢吧。 想用Python做点有用的事情,比如:爬个天气呀,爬个各个快递公司的电话呀、爬个电影网站啊,等等。 学习爬虫之前必须要了解的知识 - python基础,这里有我学Python的记录 - 什么是爬虫 ? 简单的说就是通过程序爬取网页上的信息。 - 爬虫的分类:爬虫可分为 通用爬虫 和 ...
python写爬虫6-selenium的使用
python写爬虫6-selenium的使用 目前,前端技术比较火热。各种前端技术、框架层出不穷。大部分站点的数据都是异步动态加载,相比获取静态内容,要抓取动态内容稍微麻烦点 常用的两种抓取动态网页数据的方法: 1.借助Firebug等浏览工具,分析请求数据,获得数据接口地址。然后直接动态改变接口参数,获取json格式的数据。 2.使用浏览器渲染引擎触发javascript事件,借助工具We
用python写爬虫的第一天
准备模块 1.requests &amp;amp;gt;&amp;amp;gt;&amp;amp;gt; import requests #调用模块 &amp;amp;gt;&amp;amp;gt;&amp;amp;gt; response = requests.get('http://www.baidu.com') #访问网页 &amp;amp;gt;&amp;amp;gt;&amp;amp;gt; print(response.text) #输出网页内容.选择格式 &amp;amp;gt;
用python写爬虫demo
python真的特别适合处理字符串而且python有大量的库,如用来处理网页的requests和 BeautifulSoup 库这次demo是用python爬取网易的股票网站http://quotes.money.163.com/直接上代码,里面的注释很详细。代码在这里:点击打开链接代码:StaticStock.pyimport requests import re from bs4 import...
Python,写爬虫时遇到的问题笔记(一)
python3 错误 Err
相关热词 c# stream 复制 android c# c#监测窗口句柄 c# md5 引用 c# 判断tabtip 自己写个浏览器程序c# c# 字符串变成整数数组 c#语言编程写出一个方法 c# 转盘抽奖 c#选中treeview