python request 库POST请求从ajax爬取数据遇到formdata不会处理了 20C

目标爬取网站为http://www.ccgp-shaanxi.gov.cn/notice/list.do?noticetype=3&province=province

form data为:
form data

以下为我的代码:

import requests
from urllib.parse import urlencode

base_url = 'http://www.ccgp-shaanxi.gov.cn/notice/noticeaframe.do?noticetype='
noticetype = '3'
url = base_url + noticetype
headers = {
    'Host': 'www.ccgp-shaanxi.gov.cn',
    'Referer': 'http://www.ccgp-shaanxi.gov.cn/notice/list.do?noticetype=3&province=province',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest'}

data = {
    'parameters[purcatalogguid]': '',
    'page.pageNum': '',
    'parameters[title]': '税',
    'parameters[startdate]': '',
    'parameters[enddate]': '',
    'parameters[regionguid]': '6101',
    'parameters[projectcode]': '',
    'province': '',
    'parameters[purmethod]': ''
}

data = urlencode(data)
print(data)
request = requests.post(url, data=data, headers=headers)
# print(request.text)
print(request.headers)


但是获取到的信息反应、感觉formdata貌似没有起作用,因本人属于新手小白,各位大神能指点指点吗?

5个回答

formdata 里面的数据是body里的,带上就好了,我做爬虫好几年了,有什么不懂的,欢迎追问!如果对你有帮助,请采纳!

angel725
angel725 请问python怎么获取request请球里的body内容?
大约一年之前 回复
weixin_42917365
伊卡洛斯的坠落 您好 可以加个微信嘛 请指教一下我 谢谢
大约一年之前 回复
Ghost__9
Ghost__9 爬其他的网站也测试过、、好好的、只不过这个网站的formdata是 parameters[]、这样的、跟其他的不太一样
接近 2 年之前 回复
Ghost__9
Ghost__9 回复weixin_42319146: 对了、cookie也带上了
接近 2 年之前 回复
Ghost__9
Ghost__9 我试了转成json的、也试了不要那个汉字只设置了6101的、也转了utf-8都不顶用、、、 我刚才又用urllib写了一个、还是不顶事、没头绪了
接近 2 年之前 回复
weixin_42319146
weixin_42319146 回复Ghost__9: 因为有中文,会乱码
接近 2 年之前 回复
weixin_42319146
weixin_42319146 回复Ghost__9: formdata 里面的数据,不要urlencode,设置成utf-8
接近 2 年之前 回复
weixin_42319146
weixin_42319146 回复Ghost__9: formdata 肯定有用, cookie也得带上,用fidder抓一下包,新手尽量所有参数都带上。可以参考https://www.cnblogs.com/yourstars/p/8196054.html
接近 2 年之前 回复
Ghost__9
Ghost__9 现在是有带上、比如'parameters[regionguid]': '6101' 是设置的西安市的、但是返回的结果还是陕西省的,想知道是哪有问题,为什么感觉像是 没认formdata
接近 2 年之前 回复

你cookie也要设置上去。不然可能提交的数据不会接受

Ghost__9
Ghost__9 我试试
接近 2 年之前 回复

有木有大神帮着执行一下、、、分析一下

我觉得是你的data数据格式有问题,方括号内应该是个字符串
data = {
'parameters[\'purcatalogguid\']': '',
'page.pageNum': '',
'parameters[\'title\']': '税',
'parameters[\'startdate\']': '',
'parameters[\'enddate\']': '',
'parameters[\'regionguid\']': '6101',
'parameters[\'projectcode\']': '',
'province': '',
'parameters[\'purmethod\']': ''
}
遇到这种问题你应该先尝试发送原始请求中body 的raw data的也就是原始数据, 尝试直接修改字符串,而不是用抓包工具提供的解析后的body重新编码, 成功概率会高一点。 这样就可以排除cookie或是其他的认证性错误

 base_url = 'http://www.ccgp-shaanxi.gov.cn/notice/noticeaframe.do?noticetype='
noticetype = '3'
url = base_url + noticetype
headers = {
    'Host': 'www.ccgp-shaanxi.gov.cn',
    'Referer': 'http://www.ccgp-shaanxi.gov.cn/notice/list.do?noticetype=3&province=province',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest'}

data = {
    "parameters['purcatalogguid']": '',
    "page.pageNum": '',
    "parameters['title']": '税',
    "parameters['startdate']": '',
    "parameters['enddate']": '',
    "parameters['regionguid']": '6101',
    "parameters['projectcode']": '',
    "province": '',
    "parameters['purmethod']": ''
}


print(data)
request = requests.post(url, data=data, headers=headers)
print(request.text)
print(request.headers)
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python在post请求下爬取数据,返回的值为什么为空?

本人小白,尝试爬杭州市二手房挂牌信息, 网址:http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp, 代码如下 ``` import requests url = 'http://jjhygl.hzfc.gov.cn/webty/WebFyAction_getGpxxSelectList.jspx' data = {'page': 1} headers = {'Host': 'jjhygl.hzfc.gov.cn', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0', 'Accept': 'text/html, */*; q=0.01', 'Accept-Language': 'en-US,en;q=0.5', 'Accept-Encoding': 'gzip, deflate', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With': 'XMLHttpRequest', 'Content-Length': '311', 'Connection': 'keep-alive', 'Referer': 'http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp', 'Cookie': 'ROUTEID=.lb6; JSESSIONID=2E78A1FE8DBC80F1CEEE20264BE96B1F.lb6; Hm_lvt_70e93e4ca4be30a221d21f76bb9dbdfa=1559115557; Hm_lpvt_70e93e4ca4be30a221d21f76bb9dbdfa=1559115557', 'Pragma': 'no-cache', 'Cache-Control': 'no-cache'} r = requests.post(url, data =data, headers = headers) r.content r.text ``` 返回结果是 ``` b'{"list":[],"pageinfo":"\xe6\x9a\x82\xe6\x97\xa0\xe6\x95\xb0\xe6\x8d\xae"}' '{"list":[],"pageinfo":"暂无数据"}' ``` ![图片说明](https://img-ask.csdn.net/upload/201905/29/1559122181_853820.png) 请问怎么才能得到图中的信息?

ajax无法发送请求,后台也未接收到请求

试了很多次,表单提交后,到alert(data)一句(包括这一句)都执行正常,但之后的ajax语句就无法发送请求,ajax语句里面的几个alert也没有运行,最后的alert('1')也没有运行(异步请求正常运行的话应该是会执行的吧) 以下是前端代码,本来代码是要复杂些的,但我调试的时候把代码简化了,基本确定是ajax语句的问题了。 ``` $(function () { 'use strict'; $('#login_form').submit(function (event) { event.stopPropagation(); event.preventDefault(); var nickname = $('#login_form').find('#login_nickname').val(); var pwd = $('#login_form').find('#login_password').val(); if (!nickname || !pwd) { $('#login_text').show(); } var raw_data = { title: 'login', nickname: nickname, password: pwd } var data = JSON.stringify(raw_data); alert(data); $.ajax('/login', { dataType: 'json' }).done(function (data) { alert('成功'); }).fail(function (xhr, status) { alert('失败'); }).always(function () { alert('请求完成: 无论成功或失败都会调用'); }); alert('1'); }); }); ``` 后端代码如下,用的是flask。按理来说即便url不对,后台也应该有请求记录的,然而后台并没有显示该记录 ``` @app.route('/login',methods=['POST',]) def login(): if g.user is not None and g.user.is_authenticated: flash('You have already logged in!') return redirect(url_for('home')) raw_data=request.get_data() print(raw_data) data=json.loads(raw_data) print(data[pwd],data[nickname]) resp=dict(success = True,text ='limbohotmore!') return json.dumps(resp) ``` 后台记录如下,无论提交几次表单,都只有第一次获取主页面的请求记录 ``` * Restarting with stat * Debugger is active! * Debugger PIN: 289-281-425 * Running on http://0.0.0.0:5000/ (Press CTRL+C to quit) 127.0.0.1 - - [26/Jul/2019 12:52:27] "GET / HTTP/1.1" 200 - ```

Python 并发爬取网页问题,逐一爬取没问题,并发爬取网页不完整

用python爬取内部某一个系统的页面,发现逐一爬取没问题,并发爬取网页不完整。<br><br> **方法1:request,没问题**<br> 代码就不列出来了<br><br> **方法2:grequests设置size=1时,没问题。** ``` for page_index in range(1, page_count + 1): url_query = r"http://***/SP/SlstxSearch.jsp" url_query += r"?ACTION=getPage&PAGE={}" request = grequests.post( url=url_query.format(page_index), ) request_list.append(request) response_list = grequests.map( requests=request_list, size=1 ) ``` <br><br> **方法3:grequests设置size=2时,网页开始不完整** ``` for page_index in range(1, page_count + 1): url_query = r"http://***/SP/SlstxSearch.jsp" url_query += r"?ACTION=getPage&PAGE={}" request = grequests.post( url=url_query.format(page_index), ) request_list.append(request) response_list = grequests.map( requests=request_list, size=2 ) ``` <br> **方法4:多线程+request,网页还是不完整,和方法3一样。** <br><br> **不完整的情况:**每一页都有一个表格,内部行数都10,逐一取的时候都能取下来,但是并发的状态,有时就取不到完整的10行。 在网上找资料,逐一能取到说明不是AJAX或是JS的问题吧,为什么会这样,请高手路过支招。

ajax post方式请求接口,只有options请求,没有post请求。怎么办?

http://dev.api.service.pengxiu.wang/Access-UserSignIn 比如这个接口,请求这个接口时, ajax post方式请求接口,只有options请求,没有post请求。 但是直接在浏览器中打开这个接口,可以正常返回数据。 有没有大哥知道这是为什么?跪求指导

python--爬虫 requests库如何进行网页等待?

PS: timeout参数无效!!! 在网页爬取中遇到了js:setTimeout(3)函数,网页会先加载部分数据,3秒后再次自动请求该网页,获取所有网页数据。 但requests获取网页后,只能获取等待前的数据,不能获取等待后的网页数据。 如何让requests执行js代码,或使用其它方式执行等待,获取数据?

request.post/get的请求数据问题?

## 使用fiddler抓包,请求数据的webForm和textView有什么区别? ![图片说明](https://img-ask.csdn.net/upload/201909/09/1568023180_490489.png) ![图片说明](https://img-ask.csdn.net/upload/201909/09/1568023212_633208.png) 这两个数据有什么区别? 我一直以为请求数据就仅仅放在webForm,因为我写python代码,一直都是 ``` r = requests.post(url, headers=headers, data=data) ``` 这个data就是webForm,那如果这个请求带webForm又带textView,该如何模拟?(最好用python写一下)

拉勾网爬取数据问题,请帮忙看看谢谢

from urllib import request from urllib import parse url="https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=false" header = { "Accept": "application/json, text/javascript, */*; q=0.01", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Connection": "keep-alive", "Content-Length": 25, "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8", "Cookie":"_ga=GA1.2.1138539770.1585636133; _gid=GA1.2.1776239920.1585636133; user_trace_token=20200331142853-c1dac458-3664-4392-ac4a-69c04bd926ad; LGUID=20200331142853-dc342d00-8bd1-4ef0-be94-e1fc963c7f66; index_location_city=%E6%88%90%E9%83%BD; sajssdk_2015_cross_new_user=1; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221712f483c25225-00fccc2a691313-f313f6d-1049088-1712f483c2633d%22%2C%22%24device_id%22%3A%221712f483c25225-00fccc2a691313-f313f6d-1049088-1712f483c2633d%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; JSESSIONID=ABAAAECABBJAAGI1DC0715445E99FC390A39784928682B0; WEBTJ-ID=20200331143339-1712f4ba93753-01b5d59a319d9f-f313f6d-1049088-1712f4ba939425; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585636134,1585636420; LGSID=20200331152720-18ff9ecf-6dde-4b69-a5ac-cafab6f4470c; PRE_UTM=; PRE_HOST=; PRE_SITE=https%3A%2F%2Fwww.lagou.com%2F; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist%5Fpython%3FlabelWords%3D%26fromSearch%3Dtrue%26suginput%3D; lagou_utm_source=A; gate_login_token=ab68787e51ce7cdc4177f8a0dc2bf580b680d718f0c2da0c; _putrc=08BDB62514E63F98; login=true; unick=%E7%A8%8B%E5%AE%87%E9%BE%99; _gat=1; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; X_HTTP_TOKEN=0e03eaf6286772819580465851933e81482e1a7c06; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585640860; privacyPolicyPopup=false; TG-TRACK-CODE=index_search; LGRID=20200331154749-a4a36d65-c7eb-4afb-ad17-70b31d6f293b; SEARCH_ID=6b9fa4ae7fe44a208c3dc67ed1ec3e44", "Host": "www.lagou.com", "Origin": "https://www.lagou.com", "Referer":"https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=", 'Upgrade-Insecure-Requests': '1', "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "Sec-Fetch-Site": "same-origin", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36", "X-Anit-Forge-Code": "0", "X-Anit-Forge-Token": "None", "X-Requested-With": "XMLHttpRequest", } data = { "first":"true", "pn":1, "kd":"python" } host = { "Host":"www.lagou.com" } req = request.Request(url,headers=header,data=parse.urlencode(data).encode("utf-8"),origin_req_host=parse.urlencode(host),method="POST") resp = request.urlopen(req) print(resp.read().decode("utf-8")) 代码如上,只是想爬取对应的职位信息,但是始终不行,一直提示 {"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"117.139.247.197","state":2402} 但是用网页操作又是好的,url地址,是position.Ajax.json里面找的,然后在header这里把所有的内容都复制出来了,还是不行,请知道的告诉下,是不是又升级了啊,如何解决呢?谢谢了

django +jquery+ ajax get提交报错,post提交就可以

``` 模板:(index.html) “ <html> <body> <p>请输入两个数字</p> <form action="/index" method="get"> a: <input type="text" id="a" name="a"> <br> b: <input type="text" id="b" name="b"> <br> <p>result: <span id='result'></span></p> <button type="button" id='sum'>提交</button> </form> <!---<script type="text/javascript" src="/static/jquery-3.3.1.min.js"></script>---> <script src="http://apps.bdimg.com/libs/jquery/1.11.1/jquery.min.js"></script> <script> $(document).ready(function(){ $("#sum").click(function(){ var a = $("#a").val(); var b = $("#b").val(); $.get("/index",{'a':a,'b':b}, function(ret){ $('#result').html(ret.result) }) }); }); </script> </body> </html>” ``` ``` **url 代码:** urlpatterns = [ url(r'testDb' , testDb), url(r'query' , Query), url(r'formdemo' , searchtest.search), url(r'^seachDemo' , searchtest.search_form), url(r'^index' , view.loginIndex), ] ``` ``` python 代码view.py: def loginIndex(request): if(request.method == 'GET'): a = int(request.GET.get('a')) b = int(request.GET.get('b')) return_json = {'result': a + b} return HttpResponse(json.dumps(return_json), content_type='application/json') return render(request,"index.html") ``` 报错: TypeError at /index int() argument must be a string, a bytes-like object or a number, not 'NoneType' Request Method: GET Request URL: http://127.0.0.1:8000/index Django Version: 2.0.3 Exception Type: TypeError Exception Value: int() argument must be a string, a bytes-like object or a number, not 'NoneType' Exception Location: D:\PythonDemo\PythonDemo\view.py in loginIndex, line 12 Python Executable: D:\PythonDemo\venv\Scripts\python.exe Python Version: 3.6.3 Python Path: ['D:\\PythonDemo', 'D:\\PythonDemo', 'D:\\PythonDemo\\venv\\Scripts\\python36.zip', 'X:\\python\\DLLs', 'X:\\python\\lib', 'X:\\python', 'D:\\PythonDemo\\venv', 'D:\\PythonDemo\\venv\\lib\\site-packages', 'D:\\PythonDemo\\venv\\lib\\site-packages\\setuptools-28.8.0-py3.6.egg', 'D:\\PythonDemo\\venv\\lib\\site-packages\\pip-9.0.1-py3.6.egg', 'X:\\PyCharm\\PyCharm 2017.3.4\\helpers\\pycharm_matplotlib_backend'] Server time: Sun, 18 Mar 2018 07:35:40 +0000 这个报错也让我很懵逼,我把提交方式,和ajax方法改成post,就没有这个报错,程序可以正常运行

Flask form表单返回多个Immutable Dict的问题

我用form表单进行html数据的提交,然后Flask这边用request.form进行读取。我只想要第二个dict里的内容,我好提取key为name的值,但是第一个怎么把它去掉呢或者不影响我程序的执行。现在这个src是这两个字典,而不是一个 ![图片说明](https://img-ask.csdn.net/upload/202004/18/1587194476_906167.png) 我的html代码如下: ``` <form action="{{url_for('handleLocal')}}" method="post"> <input class="uploadImg file1" type="file" name="file1" id="EmployeePicture" hidden accept="image/*" onchange="showImgToView('EmployeePicture')"/> <button class="button1" id="submitLocalFile" type="submit" onclick="transmit()" ><span>预测</span></button> ``` 这里的input是用来上传图片的,我后端并不怎么需要它。 我需要的是图片的src,所以我写了个在button提交的function ``` function transmit() { var transmit_content=$('#change_Image')[0].src; $.ajax({ url: "{{url_for('handleLocal')}}", data: {name: transmit_content}, type: "POST", //dataType: "json", }); } ``` 然后是Flask部分代码: ``` @app.route('/handleLocal',methods=['POST']) def handleLocal(): ** src=request.form.get('name')** data=src[23:-1] img_data=base64.b64decode(data+"=") ``` 问题就出在 handleLocal函数中 src=request.form会返回两个字典,我如果get的话一个结果是none,一个结果是我想要的src属性 请教大家如何解决这个问题

asp.net post 请求需要传Asp.net_Sessionid

post 请求需要传Asp.net_Sessionid 哪位大神知道这个怎么获取,然后再传过去

萌新提问!:flask ajax 下载服务端文件,请求能成功,但是文件下载不下来,是为什么?

需求是一个简单的页面,用户输入要想查询数据的时间(如:2019-03-31) 然后后端收到数据,从数据库等地方获取数据 处理之后 做成pandas的dataframe,然后pandas的to_excel 生成Excel文件保存在服务端中,用户点击下载按钮 下载文件。 现在遇到的问题是: 请求能成功,状态码200 但是无法下载文件。 跪求大佬!! 这是后端代码 ```python @app.route('/') def html(): return render_template('download.html') @app.route('/download', methods=['POST']) def downloads(time): # 获取时间数据 time = request.args.get() print(time) # filename=StringIO() # time = request.get_json()["time"] print(time) filename = "{}.xlsx".format(time) writer = pd.ExcelWriter(filename) # df3,df2,df4 是通过时间从数据库获取的数据 转dataframe df3,df2,df4 = get_excel(time) gc = GetCount(time) # hb_df,sc_df 同上 获取数据转dataframe hb_df = gc.get_hb_uv() sc_df = gc.get_sc_uv() df3.to_excel(writer,sheet_name="1-{}".format(time), index=False) df2.to_excel(writer,sheet_name="2-{}".format(time), index=False) df4.to_excel(writer,sheet_name="3-{}".format(time), index=False) hb_df.to_excel(writer,sheet_name="4-{}".format(time), index=False) sc_df.to_excel(writer,sheet_name="5-{}".format(time), index=False) writer.save() if os.path.isfile(os.path.join(basedir, filename)): print(os.path.join(basedir, filename)) response = make_response(send_from_directory(basedir, filename, as_attachment=True)) response.headers["Content-Disposition"] = "attachment; filename={}".format(filename) return response ``` 这是前端代码 ``` <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv="X-UA-Compatible" content="ie=edge"> <title>数据下载</title> <style> .main { margin: 100px auto; width: 500px; border: 1px solid #ddd; border-radius: 5px; padding: 100px 50px; } </style> </head> <body> <div class="main"> <h2>数据下载</h2> <span>请输入要查询的时间:</span><input type="text" placeholder="时间格式为:2019-01-01" id="time"> <br> <button type="button" onclick="download()">下载数据</button> </div> </body> <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script> <script> function download(){ var params = { time: $('#time').val() }; if($('#time').val() === '') { alert('请输入时间') } else { $.ajax({ type: 'post', url: '/download', data: JSON.stringify(params), contentType: "application/json", datatype: 'json', success: function(data){ }, error: function(err){ alert('出错了:' + err) } }) } } </script> </html> ```

ajax返回的数据插入到表格中

<tbody id="clxxtbody"> <cc:outprint>tdHtml</cc:outprint> </tbody> function charu(){ Ext.Ajax.request( { url : "/controller.action?name=query", timeout : 9000000, // 自定义超时时间(默认30s) method : 'POST', success : function(resp) { var jsonResult = Ext.util.JSON.decode(resp.responseText); var result = jsonResult.result; alert(result); }, failure : function(resp) { Ext.MessageBox.alert(' 提示:', '网络连接失败,请稍后重试!'); } }); } alert出来的数据如下: <tr><td>2017</td><td>SC12314</td><td>XS1223</td><td>12kg</td><td>已排程</td></tr> 如何将alert出来的多行tr里面的数据插入到表格中

利用scrapy+redis+bloomfilter爬取b站是爬不到数据是为什么?

1.利用scrapy+redis+bloomfilter爬取b站是爬不到数据是为什么? 2.https://github.com/Mrrrrr10/Bilibili_Spider 3.报错信息 2020-04-29 22:14:59 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: Bilibili_Spider) 2020-04-29 22:14:59 [scrapy.utils.log] INFO: Versions: lxml 4.2.2.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1g 21 Apr 2020), cryptography 2.9.2, Platform Windows-10-10.0.18362-SP0 2020-04-29 22:14:59 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'Bilibili_Spider', 'CONCURRENT_REQUESTS': 32, 'COOKIES_ENABLED': False, 'DUPEFILTER_CLASS': 'scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter', 'NEWSPIDER_MODULE': 'Bilibili_Spider.spiders', 'RETRY_HTTP_CODES': [401, 403, 407, 408, 414, 500, 502, 503, 504], 'RETRY_TIMES': 10, 'SCHEDULER': 'scrapy_redis_bloomfilter.scheduler.Scheduler', 'SPIDER_MODULES': ['Bilibili_Spider.spiders']} 2020-04-29 22:14:59 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats'] 2020-04-29 22:14:59 [bilibili] INFO: Reading start URLs from redis key 'bilibili:start_urls' (batch size: 32, encoding: utf-8 2020-04-29 22:14:59 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'Bilibili_Spider.middlewares.RandomUserAgentMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'Bilibili_Spider.middlewares.BilibiliSpiderDownloaderMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'Bilibili_Spider.middlewares.RandomProxyMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-04-29 22:14:59 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2020-04-29 22:14:59 [scrapy.middleware] INFO: Enabled item pipelines: ['Bilibili_Spider.pipelines.TimePipeline', 'Bilibili_Spider.pipelines.Bilibili_Pipeline', 'Bilibili_Spider.pipelines.MongoPipeline'] 2020-04-29 22:14:59 [scrapy.core.engine] INFO: Spider opened 2020-04-29 22:14:59 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2020-04-29 22:14:59 [bilibili] INFO: Spider opened: bilibili 2020-04-29 22:14:59 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2020-04-29 22:14:59 [scrapy_redis_bloomfilter.dupefilter] DEBUG: Filtered duplicate request <POST https://space.bilibili.com/ajax/member/GetInfo> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates) 2020-04-29 22:15:59 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2020-04-29 22:16:59 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

scrapy 爬取遇到问题Filtered duplicate

用scrapy请求站点 http://bigfile.co.kr 的时候,显示Filtered duplicate request:no more duplicates错误,然后就结束了,加上dont_filter=True,重新运行,结果一直死循环,无法结束,也不能爬到东西,有没有大神看一下 ```python name = 'WebSpider' start_urls = ['http://bigfile.co.kr'] headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Connection": "keep-alive", 'Referer': 'http://www.baidu.com/', "Upgrade-Insecure-Requests": 1, "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36" } def start_requests(self): request = scrapy.Request(url=self.start_urls[0], headers=self.headers, callback=self.parse) request.meta['url'] = self.start_urls[0] yield request ```

如何管理 jQuery Ajax 调用后的重定向请求

<div class="post-text" itemprop="text"> <p>I'm using <code>$.post()</code> to call a servlet using Ajax and then using the resulting HTML fragment to replace a <code>div</code> element in the user's current page. However, if the session times out, the server sends a redirect directive to send the user to the login page. In this case, jQuery is replacing the <code>div</code> element with the contents of the login page, forcing the user's eyes to witness a rare scene indeed. </p> <p>How can I manage a redirect directive from an Ajax call with jQuery 1.2.6?</p> </div> <p>转载于:https://stackoverflow.com/questions/199099/how-to-manage-a-redirect-request-after-a-jquery-ajax-call</p>

从ajax请求缓存数据以获取下一个ajax pull

<div class="post-text" itemprop="text"> <p>I wanted to know what's the best way about going around my issue... </p> <p>So, I want to have a live chart that is updating every second. I currently have a python script running on a raspberry pi that adds a new entry of data to a MySQL server every second. I'm working on a website that will nicely display this info using Ajax to refresh the data (I currently have Ajax pulling the only latest entry). I will have a 2 minute (120 seconds) line graph that will changes every second. Dropping the last second (second 120) and added a new entry to the timeline at second 1. </p> <p>My question is, What's the best way to cache seconds 1-119 without having to make a MySQL query for the latest 120 entries every second. I figured caching it some way would be less data for the MySQL server to gather and push, and less network traffic for the Ajax to request.</p> <p>Thanks for your replies, Throdne</p> </div>

带有请求的Python长轮询模式

<div class="post-text" itemprop="text"> <p>I'm doing the long-polling pattern with a PHP script and a MySQL database on a server and python script on the client. If the flag in the database is set to 0, the PHP page responds with the id of the tupel. If the request times out, a new request should be started. This is my code and I can't find my mistake:</p> <pre><code>gotID = False ID = 0 while gotID == False: f = requests.get("http://example.de/ajax_backend.php") print("status: " + str(f.status_code)) print("content: " + f.text) if int(f.status_code) == 200: gotID = True ID = f.text </code></pre> <p>If I run the code like this i get this output. First the flag was set to 1, then in the middle i changed the flag to 0:</p> <p><a href="https://i.stack.imgur.com/2Ne7s.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/2Ne7s.png" alt="console output python script"></a></p> <p>I think there is an error in the <code>if</code> statement, but I can't find it. Can you help me?</p> </div>

python,爬虫遇到重定向页面,如何获取动向后地址的response headers里的内容?

## 爬虫大致流程是这样的 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572853822_754760.png) ## 我想获取resul.jsf里Location的值 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854659_247812.png) ## 下面是我写的代码,但是得不到结果,求大佬帮忙看一下。 ## 我首先访问这个站点https://patentscope2.wipo.int/search/en/search.jsf ,从页面信息中获取ViewData的值,然后构建post data,把data加进去再次访问这个网站。 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854402_908823.png) ``` import re import requests s = requests.Session() r = s.get('https://patentscope2.wipo.int/search/en/search.jsf') resp = r.text # 获取ViewState值 viewstate = re.findall('ViewState:0.*value=\"([0-9\-:]*)\"',resp)[0] # 构建data字典 searchfp = 'US20180094236' data={'javax.faces.partial.ajax': 'true', 'javax.faces.source': 'simpleSearchForm:commandSimpleFPSearch', 'javax.faces.partial.execute': '@all', 'simpleSearchForm:commandSimpleFPSearch': 'simpleSearchForm:commandSimpleFPSearch', 'simpleSearchForm': 'simpleSearchForm', 'simpleSearchForm:j_idt216_focus': '', 'simpleSearchForm%3Aj_idt206_input': 'FP', 'simpleSearchForm:fpSearch': searchfp, 'javax.faces.ViewState': viewstate} r = s.post('https://patentscope2.wipo.int/search/en/search.jsf',data = data) ``` ## 然后得到一个result.jsf连接地址,再访问这个连接却得不到目标数据 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854616_903525.png) ``` # 获取/result.jsf链接地址 vid = re.findall('_vid=([A-Z0-9\-]*)\"',r.text)[0] re_url = 'https://patentscope2.wipo.int/search/en/result.jsf?_vid='+vid # 访问/result.jsf后却没有去到正确的地方 r = s.get(re_url) resp = r.text print(r.headers) print(r.status_code) print(resp) # 这里status_code时500,并且有页面内容,但不是目标页面 ```

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

Java校招入职华为,半年后我跑路了

何来 我,一个双非本科弟弟,有幸在 19 届的秋招中得到前东家华为(以下简称 hw)的赏识,当时秋招签订就业协议,说是入了某 java bg,之后一系列组织架构调整原因等等让人无法理解的神操作,最终毕业前夕,被通知调往其他 bg 做嵌入式开发(纯 C 语言)。 由于已至于校招末尾,之前拿到的其他 offer 又无法再收回,一时感到无力回天,只得默默接受。 毕业后,直接入职开始了嵌入式苦旅,由于从未...

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

@程序员:GitHub这个项目快薅羊毛

今天下午在朋友圈看到很多人都在发github的羊毛,一时没明白是怎么回事。 后来上百度搜索了一下,原来真有这回事,毕竟资源主义的羊毛不少啊,1000刀刷爆了朋友圈!不知道你们的朋友圈有没有看到类似的消息。 这到底是啥情况? 微软开发者平台GitHub 的一个区块链项目 Handshake ,搞了一个招募新会员的活动,面向GitHub 上前 25万名开发者派送 4,246.99 HNS币,大约价...

再不跳槽,应届毕业生拿的都比我多了!

跳槽几乎是每个人职业生涯的一部分,很多HR说“三年两跳”已经是一个跳槽频繁与否的阈值了,可为什么市面上有很多程序员不到一年就跳槽呢?他们不担心影响履历吗? PayScale之前发布的**《员工最短任期公司排行榜》中,两家码农大厂Amazon和Google**,以1年和1.1年的员工任期中位数分列第二、第四名。 PayScale:员工最短任期公司排行榜 意外的是,任期中位数极小的这两家公司,薪资...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

华为初面+综合面试(Java技术面)附上面试题

华为面试整体流程大致分为笔试,性格测试,面试,综合面试,回学校等结果。笔试来说,华为的难度较中等,选择题难度和网易腾讯差不多。最后的代码题,相比下来就简单很多,一共3道题目,前2题很容易就AC,题目已经记不太清楚,不过难度确实不大。最后一题最后提交的代码过了75%的样例,一直没有发现剩下的25%可能存在什么坑。 笔试部分太久远,我就不怎么回忆了。直接将面试。 面试 如果说腾讯的面试是挥金如土...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

win10暴力查看wifi密码

刚才邻居打了个电话说:喂小灰,你家wifi的密码是多少,我怎么连不上了。 我。。。 我也忘了哎,就找到了一个好办法,分享给大家: 第一种情况:已经连接上的wifi,怎么知道密码? 打开:控制面板\网络和 Internet\网络连接 然后右击wifi连接的无线网卡,选择状态 然后像下图一样: 第二种情况:前提是我不知道啊,但是我以前知道密码。 此时可以利用dos命令了 1、利用netsh wlan...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

程序员写出这样的代码,能不挨骂吗?

当你换槽填坑时,面对一个新的环境。能够快速熟练,上手实现业务需求是关键。但是,哪些因素会影响你快速上手呢?是原有代码写的不够好?还是注释写的不够好?昨夜...

!大部分程序员只会写3年代码

如果世界上都是这种不思进取的软件公司,那别说大部分程序员只会写 3 年代码,恐怕就没有程序员这种职业。

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

HTTP与HTTPS的区别

面试官问HTTP与HTTPS的区别,我这样回答让他竖起大拇指!

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

Python爬虫,高清美图我全都要(彼岸桌面壁纸)

爬取彼岸桌面网站较为简单,用到了requests、lxml、Beautiful Soup4

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

立即提问
相关内容推荐