JustinAelx
罗林公爵
采纳率50%
2018-03-18 06:59 阅读 2.8k

python爬取ashx页面的post请求

5

我以一个类似的情况来提问,也是论坛中有个网友1年前提出的问题,但是他没有写出后续....

网页地址:http://www.lzggzyjy.cn/InfoPage/InfoList.aspx?SiteItem=8

需求:python post请求获取该页面(感觉很简单)

分析页面:
图片说明

图片说明

我把代码贴上来:

 #! /usr/bin/env python3
# -*- coding:utf-8 –*-


import requests
import json

import sys
reload(sys) 
sys.setdefaultencoding('utf-8')


def testDownloadLanZhou():
    testUrl = 'http://www.lzggzyjy.cn/ajax/Controls_InfoListControl,App_Web_2ewqtbev.ashx?_method=getCurrentData&_session=rw'
    testHeaders = {
            'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36',
            'Host':'www.lzggzyjy.cn',
            'Referer':'http://www.lzggzyjy.cn/InfoPage/InfoList.aspx?SiteItem=8',
            'X-Requested-With':'XMLHttpRequest',
            # "Content-Type":'text/plain;charset=UTF-8',
            "Cookie":'ASP.NET_SessionId=hcdc1tywt5dgszd5bziox4sc; SERVERID=b925605187c7d5d37f1395627a969c75|1521298751|1521298681'
            }

    # testParams = {'_method':'getCurrentData', '_session':'rw'}
    testData = {'currentPage':'1', 'Query':''}

    # 将dic 转换成json字符串
    # jsonDataString = json.dumps(testData)
    # print(jsonDataString)
    # print(type(jsonDataString))

    # # 对应每个参数添加换行隔开
    # newString = jsonDataString.replace(',', '\n')
    # print(newString)

    resq = requests.post(testUrl, headers=testHeaders, data=testData)
    print(resq.content)

这个请求怎么弄都不对,获取不到正确的html页面......请各位指点迷津

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

2条回答 默认 最新

  • 已采纳
    q447552640 三阶魔方 2018-03-18 09:52

    这个网站有多一层东西,你可以这么干。
    先请求http://www.lzggzyjy.cn/InfoPage/InfoList.aspx?SiteItem=8
    然后用正则找到
    然后请求这个/ajax/Controls_InfoListControl,App_Web_xxxxxxx.ashx。

    获得内容:

    var Controls_InfoListControl = {
    getCurrentData:function(currentPage,Query,callback,context){return new ajax_request(this.url + '?_method=getCurrentData&_session=rw','currentPage=' + enc(currentPage)+ '\r\nQuery=' + enc(Query),callback, context);},
    getTotalPages:function(Query,callback,context){return new ajax_request(this.url + '?_method=getTotalPages&_session=rw','Query=' + enc(Query),callback, context);},
    url:'/ajax/Controls_InfoListControl,App_Web_xxxxxxxx.ashx'
    }

    然后再去请求http://www.lzggzyjy.cn/ajax/Controls_InfoListControl,App_Web_xxxxxxxx.ashx?_method=getCurrentData&_session=rw

    就可以了。

    主要就是这xxxxxxx,每次都不一样。cookie和sessionid不动不影响的。

    点赞 1 评论 复制链接分享
  • cxfidc01 红帽01 2018-03-18 07:08

    在分析的时候,需要看一下cookies。

    你没有设置cookies,这个信息应该很重要。

    Request Cookies             
    ASP.NET_SessionId   yl4xstdrkpsiglbs5ijixhah                
    SERVERID    0c51fcf27e5a43864444c2a531b3c0e0|1521356557|1521356321                  
    Response Cookies                                    
    SERVERID    0c51fcf27e5a43864444c2a531b3c0e0|1521356557|1521356321
    
    点赞 评论 复制链接分享

相关推荐