# 浏览器可以看见json数据,但是写Python代码确爬不到怎么办? 5C

# ## # 写一个鸟哥笔记的爬虫代码 在浏览器中看见了json的返回报文 但是就是爬不到数据 求大神指教!

图片说明
下面是json数据
图片说明

4个回答

fiddler抓包,对比浏览器的提交数据
检查下user-agent cookie postdata 以及地址,是否一致。

haohaojiuhao123
好聊吧 啥意思??
4 个月之前 回复

打印一下statu_code,看看是不是200,不是的话看看headers是不是对的,cookies是需要登录还是固定的,需要的登录的话建议模拟登录然后获取cookies

vgo数据获取的方法貌似不对,request返回的response对象, 你要获取json数据
可以先返回response对象vgo = request.get(**kwargs)
然后json.loads(vgo.text) 就行了

除了头域信息外,还有可能是网站有反爬虫机制,封了 IP 。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
浏览器网页查看json数据显示的代码排版和别人怎么不一样?

![图片说明](https://img-ask.csdn.net/upload/202002/12/1581482811_999678.png)![图片说明](https://img-ask.csdn.net/upload/202002/12/1581482817_708932.png)

python中用post方式获取网页XHR内容中的Json格式数据,但是返回了html的代码,这是为什么呢?

爬12306的过程中,扫描登录过程最后一步,post获取数据。但是报错 ![图片说明](https://img-ask.csdn.net/upload/201912/08/1575803358_790446.png) ``` def auth(uamtk_code): url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' header = {'Accept': 'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \ Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0', 'Content - Length': '64'} data = {'uamtk': uamtk_code, 'appid': 'excater'} callback = session.post(url, headers=header, data=data).text ``` json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0) post返回的值是这样的: <style type="text/css"> <!-- html,body{background:#fff;} --> </style> </head> <body> <div class="err_text"> <ul id="error" > <li id="err_top"> </li> <li id="err_bot">  网络可能存在问题,请您重试一下! <div class="time"> <SCRIPT language="javascript"> <!-- function initArray() { for (i = 0; i < initArray.arguments.length; i++) this[i] = initArray.arguments[i]; } var isnMonths = new initArray("1月", "2月", "3月", "4月", "5月", "6月", "7月", "8月", "9月", "10月", "11月", "12月"); var isnDays = new initArray("星期日", "星期一", "星期二", "星期三", "星期四", "星期五", "星期六", "星期日"); today = new Date(); hrs = today.getHours(); min = today.getMinutes(); sec = today.getSeconds(); clckh = "" + ((hrs > 12) ? hrs - 12 : hrs); clckm = ((min < 10) ? "0" : "") + min; clcks = ((sec < 10) ? "0" : "") + sec; clck = (hrs >= 12) ? "下午" : "上午"; var stnr = ""; var ns = "0123456789"; var a = ""; function getFullYear(d) { yr = d.getYear(); if (yr < 1000) yr += 1900; return yr; } document.write(getFullYear(today) + "å¹´" + isnMonths[today.getMonth()] + today.getDate() + "日" + " " + clckh + ":" + clckm + ":" + clcks + " " + isnDays[today.getDay()]); //--> </SCRIPT></div> </li> </ul> </div> </body> </html>

用fiddler抓取淘宝评论翻页的json数据,用浏览器打开后为什么是空白的?

第一次提问,看看有没有熟悉python爬虫这块的大神~ 背景:准备爬取淘宝某个商品的评论 操作步骤:浏览器打开淘宝网站(未登录)——查看淘宝评论——用fiddler抓取翻页后的评论 找到淘宝评论返回的json的网址,如下图: ![图片说明](https://img-ask.csdn.net/upload/202001/02/1577958101_54526.png) 在浏览器打开row里面获取到的评论链接,发现看不到评论,如下图: ![图片说明](https://img-ask.csdn.net/upload/202001/02/1577958242_398835.jpg) 这是什么情况?怎么解决呢?

求助,python 解析爬取的网页源码中的json部分

爬下来的网页源码有一部分是这样的 : ![图片说明](https://img-ask.csdn.net/upload/201603/11/1457684608_605734.jpg) 中间那一部分是json吧?要怎么才能解析成像浏览器那样的好继续抓取所要的信息? 说部分是因为有另外一些是正常的html,就中间这一部分想要的信息就这样两行超级长的延伸。。。也使用过json.load()来解析,不想显示错误“没有可以解析的json对象”。 这两行中还有一部分“}\u0026nick\u003d${nick}\u0026rn\u003d${rn}\u0026stats...”应该是unicode的编码,也不知道要怎么办。。 我是想要从淘宝上爬些衣服的图片下来,从首页开始,爬出其中分页的链接,然后拿到分页的源码后要解析出图片的url时出的问题。 下面是部分代码: url = 'https://www.taobao.com' header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/601.4.4 (KHTML, like Gecko) Version/9.0.3 Safari/601.4.4'} cookie = {"cookies":'mt="ci=10_1";uc1="cookie14=UoWyia%2Bf0iS5lw%3D%3D&cookie16=VT5L2FSpNgq6fDudInPRgavC%2BQ%3D%3D&existShop=false&cookie21=U%2BGCWk%2F7pY%2FF&tag=7&cookie15=UIHiLt3xD8xYTw%3D%3D&pas=0"'} html = requests.get(url) #解析html,xml转义字符 html_parser = HTMLParser.HTMLParser() text = html_parser.unescape(html.text) # soup = BeautifulSoup(html.text) #用xpath来提取链接,如"打底羊毛衫"这个类别 selector = etree.HTML(text) sub_url = selector.xpath('//*[@id="J_Top"]/div/div[1]/div/div/div/div[3]/div[1]/div/div/div[1]/a[1]/@href') print sub_url[0] sub_html = requests.get(sub_url[0]) sub_text = html_parser.unescape(sub_html.text) # soup = BeautifulSoup(sub_html.text,"lxml") # print soup.prettify() print sub_text ``` ```

通过python去爬网站,但是无法获取网站cookies。

1、尝试用python抓取网站里的一个值,页面是login.aspx,首先向页面抓取cookies,但是获取到的结果显示为 ```<RequestsCookieJar[<Cookie ASP.NET_SessionId=li5evtzfavnsshcvsiwhihyb for 10.23.10.20/>, <Cookie UICulture=ZH-CN for 10.23.10.20/>]>``` 2、我的步骤是这样: 首先打开登入界面,10.23.10.20/login.aspx: ![图片说明](https://img-ask.csdn.net/upload/201912/13/1576218442_193246.jpg) 然后点击登入后跳转到新页面,http://10.23.10.20/index.aspx ![图片说明](https://img-ask.csdn.net/upload/201912/13/1576217736_206768.jpg) 3、我的代码如下: ``` import requests session = requests.session() headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36', 'content-type': 'application/json' } url = 'http://10.23.10.20/Login.aspx' data = { '__EVENTTARGET':'', '__EVENTARGUMENT':'', '__LASTFOCUS':'', '__VIEWSTATE': '/wEPDwUKLTU4MDcwODY1NA9kFgICAw9kFgoCBA8QDxYGHg1EYXRhVGV4dEZpZWxkBQdSZXNOYW1lHg5EYXRhVmFsdWVGaWVsZAUIUGFyYUNvZGUeC18hRGF0YUJvdW5kZ2QQFQMM566A5L2T5Lit5paHBuiLseaWhwznuYHkvZPkuK3mlocVAwVaSC1DTgVFTi1VUwVaSC1ISxQrAwNnZ2cWAWZkAgUPDxYCHgdWaXNpYmxlaGRkAgYPDxYCHwNoZGQCBw8PFgIeBFRleHQFEumqjOivgeeggeW3suemgeeUqGRkAgsPDxYEHghDc3NDbGFzcwUFc3ViYnQeBF8hU0ICAmRkZDv8A1G1UoCThtCFhAOH9WUJNdJM/dRKUFJVTapERgX8', '__VIEWSTATEGENERATOR': 'C2EE9ABB', 'txtUserName': 'admin', 'txtPSW': '123456', 'HiddenField1':'', 'HiddenField2':'', 'UICultureDropDownList': 'ZH-CN', 'LoginButton':'' } session.post(url, headers=headers, data=data) cookies = session.cookies print(cookies) ``` 获取到的结果就是第一步写结果,得到的cookies不对。 我查看登入后index.aspx的resquest headers内容,如下图: ![图片说明](https://img-ask.csdn.net/upload/201912/13/1576218072_179501.jpg) 个人认为系统的cookies应该是红框里面显示的。 所以不知道是我哪里错误了?取不到正确的cookies。 完整的截图: ![图片说明](https://img-ask.csdn.net/upload/201912/13/1576225689_54923.jpg) ![图片说明](https://img-ask.csdn.net/upload/201912/13/1576225770_664683.jpg)

python爬取页面数据错误,连续爬很多页数。我主要改变的是post里面的参数pageno

爬数据的时候,比如有800页数据要爬,爬到400多页会出现返回400错误,没有数据。但是如果将程序从400页到800再重新爬,又不会报错。 求解决方法

python爬取动态网址时如何获取发送的参数

有个网址是动态的,我需要爬取的数据存储在json数据格式中, 这个用json模块读取没毛病, 但是存在这么一个问题,就是向这个数据url提交访问请求时, 有加密的参数,比如queryID,serverIP,status这三个参数,删去这几个参数去访问是被对方服务器禁止的, 而且通过正常浏览器访问的话,这个页面会在一分钟左右失效不可访问 去找cookies,没在cookies中找到与这三个参数有关联,我没法构造出这个数据页面的url 想问问各位大牛,向某个网站请求的时候,这些动态的参数一般会存储在哪里?怎么获取这种动态添加的参数? 感激不尽! ![图片说明](https://img-ask.csdn.net/upload/201704/06/1491487040_282833.png) ![图片说明](https://img-ask.csdn.net/upload/201704/06/1491487055_236999.png)

F12查看的内容和网页获取的内容不一样

用谷歌浏览器F12查看网页请求 这是一个注册请求的返回报文内容,是json格式内容:{IsSuccess: true}。 ![图片说明](https://img-ask.csdn.net/upload/201810/25/1540473841_82238.png) 但是页面弹出错误提示: ![图片说明](https://img-ask.csdn.net/upload/201810/25/1540474036_958935.png) 我不知道这个错误提示的内容是从哪里获取的,通过F12没有看到请求返回的错误内容。 所以,想问是不是网页能够从其他地方获取请求内容,或者是F12查看不到的?

jsonp返回的数据中的汉字在浏览器中是问号

前端js代码: $.ajax({ url: "http://176.1.19.64:8081/engine/config/" + treeNode.id + ".do?callback=?", type: "get", dataType: "jsonp", scriptCharset: "UTF-8", jsonpCallback:"successCallback", data: null, async: false, timeout: $.config.ajax.timeout, success: function (json) { var reportConfig = JSON.parse(json.reportConfig); console.log(reportConfig); $.databrowser.addTab(reportConfig); } }); 服务端代码: @RequestMapping(value = WebUrls.URL_CONFIG) public @ResponseBody String getReportConfig(@PathVariable String nodeId, HttpServletRequest request, HttpServletResponse response) { DynamicRequestParams params = new DynamicRequestParams(request); String result = ""; try { result = JsonUtil.objectToJsonStr(engineService.getReportConfig(nodeId)); } catch (MapperException e) { logger.info(e.getMessage()); e.printStackTrace(); } try { String callback = params.get("callback").toString(); JSONObject jsonObject = new JSONObject(); jsonObject.put("reportConfig",result); result = callback + "(" + jsonObject.toString() + ")"; } catch (Exception e) { logger.info(e.getMessage()); e.printStackTrace(); } logger.info("success"); try { result = new String (result.getBytes("utf-8"),"utf-8"); } catch (UnsupportedEncodingException e) { logger.error(e.getMessage(),e); e.printStackTrace(); } logger.info(result); try { request.setCharacterEncoding("UTF-8"); response.setCharacterEncoding("UTF-8"); } catch (UnsupportedEncodingException e) { logger.error(e.getMessage(),e); e.printStackTrace(); } //response.setContentType("text/plain;charset=ISO-8859-1"); return result; } chrome调试显示的网络信息: General Request URL:http://176.1.1.167:8080/engine/config/30000102.do? callback=successCallback&_=1489735733373 Request Method:GET Status Code:200 Remote Address:176.1.1.167:8080 Response Headers view source Content-Length:58893 Content-Type:text/plain;charset=ISO-8859-1 Date:Fri, 17 Mar 2017 07:29:00 GMT Request Headers view source Accept:*/* Accept-Encoding:gzip, deflate, sdch Accept-Language:zh-CN,zh;q=0.8 Cache-Control:no-cache Connection:keep-alive Host:176.1.1.167:8080 Pragma:no-cache Referer:http://176.1.19.64:8081/ User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Query String Parameters view source view URL encoded callback:successCallback _:1489735733373 返回的数据片段: successCallback({"reportConfig":"{\"columnMaxNum\":3,\"id\":\"30000102\",\"rowMaxNum\":3,\"showBlock\":false,\"title\":\"????????\", 现在就是这个问号,不知道怎么处理。查了好多方法,不成功。

Python访问Google Spreadsheet返回403错误

我想通过Python访问Google表单: ``` import gspread from oauth2client.service_account import ServiceAccountCredentials import json GDriveJSON = 'D:\毕业设计\PythonUpload.json' GSpreadSheet = 'New Stories' json_key = json.load(open(r'D:\毕业设计\PythonUpload.json')) scope = ['https://spreadsheets.google.com/feeds'] credentials = ServiceAccountCredentials.from_json_keyfile_name(GDriveJSON, scope) gc = gspread.authorize(credentials) ``` 但是在打开的时候: ``` ws = gc.open(GSpreadSheet).sheet1 ``` 返回了403错误: ``` Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\Program Files\Python36\lib\site-packages\gspread\client.py", line 122, in open self.list_spreadsheet_files() File "D:\Program Files\Python36\lib\site-packages\gspread\client.py", line 96, in list_spreadsheet_files res = self.request('get', url, params=params).json() File "D:\Program Files\Python36\lib\site-packages\gspread\client.py", line 79, in request raise APIError(response) gspread.exceptions.APIError: { "error": { "errors": [ { "domain": "global", "reason": "insufficientPermissions", "message": "Insufficient Permission" } ], "code": 403, "message": "Insufficient Permission" } } ``` 请问应该怎么修改呢?

nodejs如何将数据返回给前端的post请求,在浏览器preview能看到返回值

前端使用ajax请求post方法请求nodejs服务。nodejs如何将数据返回给前端,并且在浏览器的preview中能得到,新手,在线急等

python爬取淘宝评论返回内容是登录信息

import requests url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp21 content=requests.get(url).content print(content) 返回的不是用浏览器看到的样子,而是一个登录的连接,我用浏览器模拟反问就是超时,请问这是什么问题

fidder的post方式数据怎么获取

新人小白爬虫一枚。今天要采集时发现fidder抓包的数据是post传参方式的,本人以前接触的都是get,直接url在浏览器中打开就可以看到数据了,但是post的url不知道怎么用才能获得下面的数据,有高手指点一下么

python的flask-web程序出错

1.python的flask-web程序不知道错在哪里,运行报错:The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.? from flask import Flask from flask import request from recommend import Recommend2 import json import glob import os.path configuration={ "DATA_PATH":"data", "PORT":8080 } #LOAD THE DATA JSON_LIST = [] paths = glob.glob( os.path.join(configuration["DATA_PATH"],"*.txt") ) for path in paths: fp = open(path,"r") JSON_LIST.append( json.load(fp) ) fp.close() def filter_json(json_list:list): """ 过滤每一条数据,用于测试集合 保留title :param json_list:电影数据 :return: 过滤后的结果 """ res = [] def func(inf:dict,json,key:str): """ 对于 A/B/C这样在同一个标签下有多个属性的进行过滤 :param inf: 字典 :param json: 需要过滤的单个json对象 :return: """ if key == "title": info["title"]=json["title"] return ks = j.get(key, "") k_l = ks.split("/") for k_i in range(len(k_l)): # print(ty_l[t_i]) info["%s%s" % (key,k_i + 1)] = k_l[k_i] for j in json_list: info = dict() info["title"] = j.get("title") for k in j : if k not in ["comment_list","date","runtime"]: func(info,j,k) res.append(info) return res # print(filter_json(JSON_LIST)) app = Flask(__name__) system = Recommend2(7*24*3600) @app.route("/recommend/get",methods=['GET']) def get(): """ 获取推荐结果 :return: 推荐结果 """ test_set=filter_json(JSON_LIST) res = system.result(test_set,5) def _filter(j): """ 将comment_list弄成字符串 """ nj = j.copy() nj["comment_list"] = "|".join(nj["comment_list"]) return nj return json.dumps( [ _filter(JSON_LIST[i]) for i in res] ) @app.route("/recommend/put",methods=["GET"]) def put(): """ 提取数据再学习 :return: """ movie_name = request.args.get("moviename",None) comment = request.args.get("comment",None) if (not movie_name) or (not comment): return json.dumps({"sta":"failed"}) print(movie_name) if comment == "good": temp = [ filter_json([x])[0] for x in JSON_LIST if x.get("title","") == movie_name ] system.learn(temp[0]) return json.dumps({"sta":"succeed"}) @app.route("/recommend/info") def get_info(): return json.dumps(system.getLike()) if __name__ == "__main__": app.run(port=configuration["PORT"],debug=True)

爬虫爬取1688返回response成功但是内容为空?

今天尝试写了一个爬取1688商品页的爬虫,发现1688的代码已经不同于几年前了,前台的页面html代码居然是通过js请求返回json数据中的值解析而来,整个动态加载的html被全部封装。在网页前台浏览的时候也能明显感觉到,整个商品页不是全部一次加载完成,随着鼠标的下滑进行动态加载,直至翻页出现。找了一下网上的爬取代码,不是代码太旧就是使用selenium,因此我尝试从解析js角度来看看能否爬到数据。 我搜索的关键词为:大理石餐盘,访问的url为:https://s.1688.com/selloffer/offer_search.htm?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&n=y&netType=1%2C11&spm=a260k.635.3262836.d102 通过抓包可以发现实际上每个页面的动态加载通过如下的js文件加载: ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552530583_824631.png) 同时可以看到头部信息为: ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552530839_105546.jpg) 因此我编写了代码来请求此url,想要获取其中的数据 通过分析url,我发现其实只有几个关键的参数在发生作用,我修改了url如下: https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true 将比较关键的参数罗列:keywords,beginpage ,startindex(本页中以0.20.40循环),templateconfigname,async,enableasync 从页面请求的结果如下 https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552531339_315690.jpg) 依据上面的分析我编写了代码: ``` ''' 得到单页商品信息 ''' try: print('正在爬取第%d页' % page) for startindex in range(0, 2): proxy = get_proxy() url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp' data = { 'keywords': KEYWORD, # 搜索关键词, 'beginpage': str(page), # 页数 'templateConfigName': TemplateConfigName, 'startIndex': str(startindex*20), 'async': 'true', 'enableAsync': 'true' } headers = { 'User_Agent': random.choice(USER_AGENT), 'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote( KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985', 'Cookie': COOKIE, } proxies = {"http": "http://{}".format(proxy)} response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5) time.sleep(1) if response.status_code == 200: print(response.text) data = response.json() get_info(data=data) except Exception as e: print(e.args) print('出现异常,重新爬取第%d页' % page) return get_one_page(page) ``` ``` 其中请求头是参照抓包的请求头进行了伪装,user_agent使用了随机代理池中的代理。 ip应用了代理池中的代理进行切换, 测试代码发现虽然返回成功,但是内容为空: 测试代码的结果如下: ``` ``` 正在爬取第1页_ ({ "hasError":false, "message":"success", "content":{ "offerResult":{ "html":"" }, "beaconP4Pid":"1552531611011186199615", "tracerId":"1191031861991552531610953000954", "end":0 } }) ``` 很明显服务器判断出来我是机器人,我检查了一下cookies还有ip以及header都没有问题 使用同样的参数在浏览器页面请求也能访问正常的结果,因此我决定增加更多的参数,也许是因为服务器 端验证会检测某个参数是否存在来判断请求来自机器人还是真正的用户,我将代码修改如下: ``` def get_one_page(page): ''' 得到单页商品信息 ''' try: print('正在爬取第%d页' % page) for startindex in range(0, 2): proxy = get_proxy() url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp' data = { 'keywords': KEYWORD, # 搜索关键词, 'beginpage': str(page), # 页数 'templateConfigName': TemplateConfigName, 'startIndex': str(startindex*20), 'async': 'true', 'enableAsync': 'true', 'rpcflag': 'new', '_pageName_': 'market', 'offset': str(9), 'pageSize': str(60), 'asyncCount': str(20), 'n': 'y', 'netType': '1%2C11', 'uniqfield': 'pic_tag_id', 'qrwRedirectEnabled': 'false', 'filterP4pIds': '550656542618%2C554434844511%2C574540124248%2C568185683625%2C567623615791%2C536778930216%2C577066747130%2C555894336804', 'leftP4PIds': '', 'pageOffset': str(3) } headers = { 'User_Agent': random.choice(USER_AGENT), 'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote( KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985', 'Cookie': COOKIE, } proxies = {"http": "http://{}".format(proxy)} response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5) time.sleep(1) if response.status_code == 200: print(response.text) data = response.json() get_info(data=data) except Exception as e: print(e.args) print('出现异常,重新爬取第%d页' % page) return get_one_page(page) ``` 测试的结果如下: ``` 正在爬取第1页 ({ "hasError":false, "message":"success", "content":{ "offerResult":{ "html":" \n \n <!-- 为打点计算 offerindex 值-->\n \n \n <!-- 用于异步请求 -->\n \n\n <div id=\"sm-maindata-script\">\n <script type=\"text\/javascript\">\n var coaseParam = {\n \'isCoaseOut\':true\n };\n <\/script>\n <script type=\"text\/javascript\">\n var rightP4P = {\n industryTagPath:\'\',\n leftP4PId:\'\',\n leftP4PLoginId:\'\',\n biaowangId:\'\'\n };\n var rightP4Poffer =[\n ];\n<\/script>\n <\/div>\n \n\n" }, "beaconP4Pid":"1552532048109186199394", "tracerId":"1191031861991552532048084000548", "end":0 } }) ``` 很遗憾结果并不理想,仍旧没有办法获得真正的数据。 我分析了还没有被我列进去的参数,因为无法寻找到其规律所以就没有加上去。 难道1688现在已经做到了,机器人无法爬的地步了吗,到底应该如何解决呢。有没有大神能够指点一下: 另外我同样的测试了一下1688的热销市场,同样的方式,没有问题可以爬取到js的内容,只不过数据是直接封装在json返回值中的,不是通过html代码二次封装。

在Selenium IED里面导出的.py文件在pycharm运行浏览器调取不了

``` # -*- coding: utf-8 -*- # Generated by Selenium IDE import pytest import time import json from selenium import webdriver #导入驱动, from selenium.webdriver.common.by import By from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.support import expected_conditions from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.common.keys import Keys time.sleep(5) class TestDenglu(): def setup_method(self, method): self.driver = webdriver.Chrome() self.vars = {} def teardown_method(self, method): self.driver.quit() time.sleep(5) def test_denglu(self): # Test name: denglu # Step # | name | target | value | comment # 1 | open | / | | self.driver.get("http://192.168.1.118:8083/") # 2 | setWindowSize | 945x1140 | | self.driver.set_window_size(945, 1140) time.sleep(5) # 3 | click | css=.login | | self.driver.find_element(By.CSS_SELECTOR, ".login").click() # 4 | click | css=.login-input:nth-child(3) > input | | self.driver.find_element(By.CSS_SELECTOR, ".login-input:nth-child(3) > input").click() # 5 | click | css=.login | | self.driver.find_element(By.CSS_SELECTOR, ".login").click() # 6 | click | css=.login-input:nth-child(3) > input | | self.driver.find_element(By.CSS_SELECTOR, ".login-input:nth-child(3) > input").click() # 7 | click | css=.login-button | | self.driver.find_element(By.CSS_SELECTOR, ".login-button").click() ```![图片说明](https://img-ask.csdn.net/upload/201909/27/1569567359_21132.png) 在Selenium IED里面导出的.py文件在pycharm运行浏览器调取不了

chrome抓包,preview的值和response是什么

用chrome抓包,获取的preview的值和response差不多,里面id是动态的,每次提交都不一样,这个是ajax提交表单json数据的,请问发包的时候怎么获取id的值呢,这个值好像是ajax提交的时候才会出现! 另外请问,有没有关于这方面的学习材料,非常感谢!![CSDN移动问答][1] [1]: http://d.pcs.baidu.com/thumbnail/249436eab8420a4f53c339a44d217282?fid=2852467955-250528-1013177970066334&time=1407117600&sign=FDTAER-DCb740ccc5511e5e8fedcff06b081203-xLiE1ugb%2bVJY4YFglN3%2bJkPAhM8=&rt=sh&expires=2h&r=155035547&sharesign=unknown&size=c710_u500&quality=100 图片如果看不到,点击http://pan.baidu.com/s/1jGqUmxw

Python使用urllib2 urlopen打开网页不正确

``` #!/usr/bin/python # -*- coding: utf-8 -*- import urllib; import urllib2; import os; import sys; import shutil; def searchVT(): VTMainUrl = 'https://www.virustotal.com/en/#search'; headers = { 'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'content-type':'application/x-www-form-urlencode', 'referer':'https://www.virustotal.com/', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.101 Safari/537.36'}; postDict = {'query' : '18092AC0F4F694C60762DC98C9F66BC3',}; postData = urllib.urlencode(postDict); req = urllib2.Request(VTMainUrl, postData, headers); try: respHtml = urllib2.urlopen(req).read(); except urllib2.URLError,e: if hasattr(e,"reason"): print "Failed to reach the server" print "The reason:",e.reason elif hasattr(e,"code"): print "The server couldn't fulfill the request" print "Error code:",e.code print "Return content:",e.read() else: pass #其他异常的处理 file_object = open('thefile.txt', 'w') file_object.write(respHtml) file_object.close( ) print respHtml; return respHtml; if __name__=="__main__": searchVT(); ``` 最近使用urllib2 urlopen尝试打开VT网页并进行使用MD5查询,但是不知道为什么返回的网页为空,求大神赐教~

爬取信息在network 里面搜到一个文件 不知道什么格式

![图片说明](https://img-ask.csdn.net/upload/201904/21/1555856065_621474.png) 找到这个文件,看response应该是json文件,如何获取这段文件里面的内容。另外浏览器打不开这个文件的url。不知道对于这种文件应该如何提取response里面的信息。

4小时玩转微信小程序——基础入门与微信支付实战

这是一个门针对零基础学员学习微信小程序开发的视频教学课程。课程采用腾讯官方文档作为教程的唯一技术资料来源。杜绝网络上质量良莠不齐的资料给学员学习带来的障碍。 视频课程按照开发工具的下载、安装、使用、程序结构、视图层、逻辑层、微信小程序等几个部分组织课程,详细讲解整个小程序的开发过程

Python可以这样学(第四季:数据分析与科学计算可视化)

董付国老师系列教材《Python程序设计(第2版)》(ISBN:9787302436515)、《Python可以这样学》(ISBN:9787302456469)配套视频,在教材基础上又增加了大量内容,通过实例讲解numpy、scipy、pandas、statistics、matplotlib等标准库和扩展库用法。

组成原理课程设计(实现机器数的真值还原等功能)

实现机器数的真值还原(定点小数)、定点小数的单符号位补码加减运算、定点小数的补码乘法运算和浮点数的加减运算。

javaWeb图书馆管理系统源码mysql版本

系统介绍 图书馆管理系统主要的目的是实现图书馆的信息化管理。图书馆的主要业务就是新书的借阅和归还,因此系统最核心的功能便是实现图书的借阅和归还。此外,还需要提供图书的信息查询、读者图书借阅情况的查询等

土豆浏览器

土豆浏览器可以用来看各种搞笑、电影、电视剧视频

Java面试题大全(2020版)

发现网上很多Java面试题都没有答案,所以花了很长时间搜集整理出来了这套Java面试题大全,希望对大家有帮助哈~ 本套Java面试题大全,全的不能再全,哈哈~ 一、Java 基础 1. JDK 和 JRE 有什么区别? JDK:Java Development Kit 的简称,java 开发工具包,提供了 java 的开发环境和运行环境。 JRE:Java Runtime Environ...

Java8零基础入门视频教程

这门课程基于主流的java8平台,由浅入深的详细讲解了java SE的开发技术,可以使java方向的入门学员,快速扎实的掌握java开发技术!

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

TTP229触摸代码以及触摸返回值处理

自己总结的ttp229触摸代码,触摸代码以及触摸按键处理

网络工程师小白入门--【思科CCNA、华为HCNA等网络工程师认证】

本课程适合CCNA或HCNA网络小白同志,高手请绕道,可以直接学习进价课程。通过本预科课程的学习,为学习网络工程师、思科CCNA、华为HCNA这些认证打下坚实的基础! 重要!思科认证2020年2月24日起,已启用新版认证和考试,包括题库都会更新,由于疫情原因,请关注官网和本地考点信息。题库网络上很容易下载到。

深度学习原理+项目实战+算法详解+主流框架(套餐)

深度学习系列课程从深度学习基础知识点开始讲解一步步进入神经网络的世界再到卷积和递归神经网络,详解各大经典网络架构。实战部分选择当下最火爆深度学习框架PyTorch与Tensorflow/Keras,全程实战演示框架核心使用与建模方法。项目实战部分选择计算机视觉与自然语言处理领域经典项目,从零开始详解算法原理,debug模式逐行代码解读。适合准备就业和转行的同学们加入学习! 建议按照下列课程顺序来进行学习 (1)掌握深度学习必备经典网络架构 (2)深度框架实战方法 (3)计算机视觉与自然语言处理项目实战。(按照课程排列顺序即可)

java jdk 8 帮助文档 中文 文档 chm 谷歌翻译

JDK1.8 API 中文谷歌翻译版 java帮助文档 JDK API java 帮助文档 谷歌翻译 JDK1.8 API 中文 谷歌翻译版 java帮助文档 Java最新帮助文档 本帮助文档是使用谷

Ubuntu18.04安装教程

Ubuntu18.04.1安装一、准备工作1.下载Ubuntu18.04.1 LTS2.制作U盘启动盘3.准备 Ubuntu18.04.1 的硬盘空间二、安装Ubuntu18.04.1三、安装后的一些工作1.安装输入法2.更换软件源四、双系统如何卸载Ubuntu18.04.1新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列...

快速排序---(面试碰到过好几次)

原理:    快速排序,说白了就是给基准数据找其正确索引位置的过程.    如下图所示,假设最开始的基准数据为数组第一个元素23,则首先用一个临时变量去存储基准数据,即tmp=23;然后分别从数组的两端扫描数组,设两个指示标志:low指向起始位置,high指向末尾.    首先从后半部分开始,如果扫描到的值大于基准数据就让high减1,如果发现有元素比该基准数据的值小(如上图中18&amp;lt...

手把手实现Java图书管理系统(附源码)

【超实用课程内容】 本课程演示的是一套基于Java的SSM框架实现的图书管理系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的java人群。详细介绍了图书管理系统的实现,包括:环境搭建、系统业务、技术实现、项目运行、功能演示、系统扩展等,以通俗易懂的方式,手把手的带你从零开始运行本套图书管理系统,该项目附带全部源码可作为毕设使用。 【课程如何观看?】 PC端:https://edu.csdn.net/course/detail/27513 移动端:CSDN 学院APP(注意不是CSDN APP哦) 本课程为录播课,课程2年有效观看时长,大家可以抓紧时间学习后一起讨论哦~ 【学员专享增值服务】 源码开放 课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化 下载方式:电脑登录https://edu.csdn.net/course/detail/27513,点击右下方课程资料、代码、课件等打包下载

HTML期末大作业

这是我自己做的HTML期末大作业,花了很多时间,稍加修改就可以作为自己的作业了,而且也可以作为学习参考

Python数据挖掘简易入门

&nbsp; &nbsp; &nbsp; &nbsp; 本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决数据挖掘问题,为进一步深入学习数据挖掘打下扎实的基础。

极简JAVA学习营第四期(报名以后加助教微信:eduxy-1)

想学好JAVA必须要报两万的培训班吗? Java大神勿入 如果你: 零基础想学JAVA却不知道从何入手 看了一堆书和视频却还是连JAVA的环境都搭建不起来 囊中羞涩面对两万起的JAVA培训班不忍直视 在职没有每天大块的时间专门学习JAVA 那么恭喜你找到组织了,在这里有: 1. 一群志同道合立志学好JAVA的同学一起学习讨论JAVA 2. 灵活机动的学习时间完成特定学习任务+每日编程实战练习 3. 热心助人的助教和讲师及时帮你解决问题,不按时完成作业小心助教老师的家访哦 上一张图看看前辈的感悟: &nbsp; &nbsp; 大家一定迫不及待想知道什么是极简JAVA学习营了吧,下面就来给大家说道说道: 什么是极简JAVA学习营? 1. 针对Java小白或者初级Java学习者; 2. 利用9天时间,每天1个小时时间; 3.通过 每日作业 / 组队PK / 助教答疑 / 实战编程 / 项目答辩 / 社群讨论 / 趣味知识抢答等方式让学员爱上学习编程 , 最终实现能独立开发一个基于控制台的‘库存管理系统’ 的学习模式 极简JAVA学习营是怎么学习的? &nbsp; 如何报名? 只要购买了极简JAVA一:JAVA入门就算报名成功! &nbsp;本期为第四期极简JAVA学习营,我们来看看往期学员的学习状态: 作业看这里~ &nbsp; 助教的作业报告是不是很专业 不交作业打屁屁 助教答疑是不是很用心 &nbsp; 有奖抢答大家玩的很嗨啊 &nbsp; &nbsp; 项目答辩终于开始啦 &nbsp; 优秀者的获奖感言 &nbsp; 这是答辩项目的效果 &nbsp; &nbsp; 这么细致的服务,这么好的氛围,这样的学习效果,需要多少钱呢? 不要1999,不要199,不要99,只要9.9 是的你没听错,只要9.9以上所有就都属于你了 如果你: 1、&nbsp;想学JAVA没有基础 2、&nbsp;想学JAVA没有整块的时间 3、&nbsp;想学JAVA没有足够的预算 还等什么?赶紧报名吧,抓紧抢位,本期只招300人,错过只有等时间待定的下一期了 &nbsp; 报名请加小助手微信:eduxy-1 &nbsp; &nbsp;

C++语言基础视频教程

C++语言基础视频培训课程:本课与主讲者在大学开出的程序设计课程直接对接,准确把握知识点,注重教学视频与实践体系的结合,帮助初学者有效学习。本教程详细介绍C++语言中的封装、数据隐藏、继承、多态的实现等入门知识;主要包括类的声明、对象定义、构造函数和析构函数、运算符重载、继承和派生、多态性实现等。 课程需要有C语言程序设计的基础(可以利用本人开出的《C语言与程序设计》系列课学习)。学习者能够通过实践的方式,学会利用C++语言解决问题,具备进一步学习利用C++开发应用程序的基础。

UnityLicence

UnityLicence

软件测试2小时入门

本课程内容系统、全面、简洁、通俗易懂,通过2个多小时的介绍,让大家对软件测试有个系统的理解和认识,具备基本的软件测试理论基础。 主要内容分为5个部分: 1 软件测试概述,了解测试是什么、测试的对象、原则、流程、方法、模型;&nbsp; 2.常用的黑盒测试用例设计方法及示例演示;&nbsp; 3 常用白盒测试用例设计方法及示例演示;&nbsp; 4.自动化测试优缺点、使用范围及示例‘;&nbsp; 5.测试经验谈。

YOLOv3目标检测实战:训练自己的数据集

YOLOv3是一种基于深度学习的端到端实时目标检测方法,以速度快见长。本课程将手把手地教大家使用labelImg标注和使用YOLOv3训练自己的数据集。课程分为三个小项目:足球目标检测(单目标检测)、梅西目标检测(单目标检测)、足球和梅西同时目标检测(两目标检测)。 本课程的YOLOv3使用Darknet,在Ubuntu系统上做项目演示。包括:安装Darknet、给自己的数据集打标签、整理自己的数据集、修改配置文件、训练自己的数据集、测试训练出的网络模型、性能统计(mAP计算和画出PR曲线)和先验框聚类。 Darknet是使用C语言实现的轻型开源深度学习框架,依赖少,可移植性好,值得深入探究。 除本课程《YOLOv3目标检测实战:训练自己的数据集》外,本人推出了有关YOLOv3目标检测的系列课程,请持续关注该系列的其它课程视频,包括: 《YOLOv3目标检测实战:交通标志识别》 《YOLOv3目标检测:原理与源码解析》 《YOLOv3目标检测:网络模型改进方法》 敬请关注并选择学习!

Python数据分析师-实战系列

系列课程主要包括Python数据分析必备工具包,数据分析案例实战,核心算法实战与企业级数据分析与建模解决方案实战,建议大家按照系列课程阶段顺序进行学习。所有数据集均为企业收集的真实数据集,整体风格以实战为导向,通俗讲解Python数据分析核心技巧与实战解决方案。

YOLOv3目标检测实战系列课程

《YOLOv3目标检测实战系列课程》旨在帮助大家掌握YOLOv3目标检测的训练、原理、源码与网络模型改进方法。 本课程的YOLOv3使用原作darknet(c语言编写),在Ubuntu系统上做项目演示。 本系列课程包括三门课: (1)《YOLOv3目标检测实战:训练自己的数据集》 包括:安装darknet、给自己的数据集打标签、整理自己的数据集、修改配置文件、训练自己的数据集、测试训练出的网络模型、性能统计(mAP计算和画出PR曲线)和先验框聚类。 (2)《YOLOv3目标检测:原理与源码解析》讲解YOLOv1、YOLOv2、YOLOv3的原理、程序流程并解析各层的源码。 (3)《YOLOv3目标检测:网络模型改进方法》讲解YOLOv3的改进方法,包括改进1:不显示指定类别目标的方法 (增加功能) ;改进2:合并BN层到卷积层 (加快推理速度) ; 改进3:使用GIoU指标和损失函数 (提高检测精度) ;改进4:tiny YOLOv3 (简化网络模型)并介绍 AlexeyAB/darknet项目。

超详细MySQL安装及基本使用教程

一、下载MySQL 首先,去数据库的官网http://www.mysql.com下载MySQL。 点击进入后的首页如下:  然后点击downloads,community,选择MySQL Community Server。如下图:  滑到下面,找到Recommended Download,然后点击go to download page。如下图:  点击download进入下载页面选择No...

一学即懂的计算机视觉(第一季)

图像处理和计算机视觉的课程大家已经看过很多,但总有“听不透”,“用不了”的感觉。课程致力于创建人人都能听的懂的计算机视觉,通过生动、细腻的讲解配合实战演练,让学生真正学懂、用会。 【超实用课程内容】 课程内容分为三篇,包括视觉系统构成,图像处理基础,特征提取与描述,运动跟踪,位姿估计,三维重构等内容。课程理论与实战结合,注重教学内容的可视化和工程实践,为人工智能视觉研发及算法工程师等相关高薪职位就业打下坚实基础。 【课程如何观看?】 PC端:https://edu.csdn.net/course/detail/26281 移动端:CSDN 学院APP(注意不是CSDN APP哦) 本课程为录播课,课程2年有效观看时长,但是大家可以抓紧时间学习后一起讨论哦~ 【学员专享增值服务】 源码开放 课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化 下载方式:电脑登录https://edu.csdn.net/course/detail/26281,点击右下方课程资料、代码、课件等打包下载

董付国老师Python全栈学习优惠套餐

购买套餐的朋友可以关注微信公众号“Python小屋”,上传付款截图,然后领取董老师任意图书1本。

爬取妹子图片(简单入门)

安装第三方请求库 requests 被网站禁止了访问 原因是我们是Python过来的 重新给一段 可能还是存在用不了,使用网页的 编写代码 上面注意看匹配内容 User-Agent:请求对象 AppleWebKit:请求内核 Chrome浏览器 //请求网页 import requests import re //正则表达式 就是去不规则的网页里面提取有规律的信息 headers = { 'User-Agent':'存放浏览器里面的' } response = requests.get

web网页制作期末大作业

分享思维,改变世界. web网页制作,期末大作业. 所用技术:html css javascript 分享所学所得

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

相关热词 c#跨线程停止timer c#批量写入sql数据库 c# 自动安装浏览器 c#语言基础考试题 c# 偏移量打印是什么 c# 绘制曲线图 c#框体中的退出函数 c# 按钮透明背景 c# idl 混编出错 c#在位置0处没有任何行
立即提问