当网页采用js动态获取数据时,HttpClient应如何获取数据?

总的问题是这样的:因为我需要在两个城市来回跑,但是机票价格不断变化,就想通过.NET的HttpClient对携程网的网页进行访问,定时为每几小时一次,然后在后台进行一下分析,当某个机票价格贴近预期的最低价的时候通知我。

我用的VB.NET,但是C#应该更广泛,如果哪位大神可以帮忙回答用C#就可以。

代码如下,我先写了一个类

Imports System.IO
Imports System.Net.Http
Public Class MySpider
    Dim callback As CallBackSub
    Public Sub CallBackTo(ByVal callclass As CallBackSub)
        callback = callclass
    End Sub
    Public Shared Async Sub GetPage(ByVal url As String, ByVal callclass As CallBackSub)
        Dim MyHttpClient As New HttpClient()
        Dim str As String = Await GetStringFromUrl(url)
        Dim callback0 As CallBackSub = callclass
        callback0.Invoke(str)
    End Sub
    Private Shared Async Function GetStringFromUrl(ByVal Url As String) As Task(Of String)
        Using client As HttpClient = New HttpClient()

            Try
                Dim response As HttpResponseMessage = Await client.GetAsync(Url)
                response.EnsureSuccessStatusCode()
                Dim responseBody As String = Await response.Content.ReadAsStringAsync()

                Return responseBody
            Catch e As HttpRequestException
                Console.WriteLine(vbLf & "Exception Caught!")
                Console.WriteLine("Message :{0} ", e.Message)
                Return Nothing
            End Try
        End Using
    End Function
End Class

这个类中的GetStringFromUrl是微软给的例程,然后我用了一个委托来把获取的字符串传递给Form窗体。(我的.NET仅仅勉强入门,正准备task和线程这些,就姑且用委托了,如果有正确的处理方法还麻烦告诉一下)
窗体代码就不贴出来了,就是一个textbox用来接收委托传过去的数据,然后一个button控制getpage

然后问题就在于,我发现我取出response中的数据后,根本找不到机票价格
图片说明

然后我在浏览器中把网页保存了之后,发现里面有很多js和css文件,我就想是不是有些数据是通过js动态获取的。

最后我试了Windows窗体控件WebBroswer,在赋值了URL之后,仅仅这一句代码就得到了我想要的机票价格数据

TextBox1.Text = WebBrowser1.Document.All(1).InnerText

图片说明

虽然问题可以说暂时解决,但是我还是觉得,HttpClient作为微软推荐使用的一个类,应该不会处理不了这种动态获取数据的情况,就想请教下各位使用.NET得前辈,是否可以用HttpClient类处理这个问题呢?

如果能给出代码我会感激不尽,如果给一个资料的链接也一样很感谢!

2个回答

用Chrome/IE的F12去抓包,这些动态加载的东西应该是ajax方式得到的,抓包可以获取,然后用HttpWebRequest类照着模拟提交。

图片说明

Steven_Lenny
Steven_Lenny 真的多谢!我按照您说的用httpwebrequest解决了问题,但还是有两个疑问想向您请教。第一是,我在浏览器上发现一个标头是accept-encoding,还有一个是accept-language,但我发现在把这两个标头写进去的时候,accept-language直接这样写进去就可以,但是accept-encoding必须写成acceptencoding,也就是把中间符号去掉才可以,否则返回的就是几个无法读取的符号。第二是,我之前想用HttpClient类来做这个(因为我在官网查HttpWebRequest的定义的时候微软推荐用HttpClient),但是一直做不出来,请问是因为我哪里没有做对,还是HttpClient这个类就不适合于post请求呢?问的问题可能有点“愚蠢”,还请包涵!
10 个月之前 回复
Steven_Lenny
Steven_Lenny 回复caozhy: 好的,多谢~我去试试
10 个月之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复Steven_Lenny: 第一,让你用httpwebrequest而不是webclient,因为它才能精确模拟出post,user-agent,cookie,referer等,这个我前面说了,第二,你可以用fiddler对你的程序的提交也抓包,两相比较
10 个月之前 回复
Steven_Lenny
Steven_Lenny 万分感谢!我按照你说的做了,但是我还是没成功得到信息,我是把payload的内容放进了postasync的httpcontent中,然后浏览器上的requestheader放进了httpclient类的默认requestheaders中,具体的我加了一个评论。能麻烦您看一下我是哪里做的不对吗(https我已经查到解决方法了应该不是因为https的问题)
10 个月之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复Steven_Lenny: 看我追加的回答的操作演示
10 个月之前 回复
Steven_Lenny
Steven_Lenny 回复caozhy:嗯嗯,多谢啦,请问可不可以告诉我应该通过什么标志来找动态数据获取是用的哪个URL和对应标头这些呢。这方面是初学的小白,麻烦您了
10 个月之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复Steven_Lenny: 抓包和你的程序没关系啊,只是让你对照着浏览器的提交,去模仿在程序里实现。
10 个月之前 回复
Steven_Lenny
Steven_Lenny 请问F12抓包是指我在浏览器上按F12先把数据找出来吗,还是我可以通过代码启动浏览器抓包呢
10 个月之前 回复

我postasync函数中的httpcontent里面的内容写的:

paramList.Add(New KeyValuePair(Of String, String)("airportParams", "[{dcity: ""sha"", acity: ""ckg"", dcityname: ""上海"", acityname: ""重庆"", date: ""2019-02-12""]}"))         paramList.Add(New KeyValuePair(Of String, String)("army", "False"))         paramList.Add(New KeyValuePair(Of String, String)("classType", "ALL"))         paramList.Add(New KeyValuePair(Of String, String)("flightWay", "Oneway"))         paramList.Add(New KeyValuePair(Of String, String)("hasBaby", "False"))         paramList.Add(New KeyValuePair(Of String, String)("hasChild", "False"))         paramList.Add(New KeyValuePair(Of String, String)("params", "[{dcity: ""SHA"", acity: ""NKG"", dcityname: ""上海"", acityname: ""南京"", date: ""2019-02-12"", dcityid: 2,dcityname: ""上海""]}"))         paramList.Add(New KeyValuePair(Of String, String)("searchIndex", "1"))

,request的header写的

client.DefaultRequestHeaders.Add("Accept", "*/*")             client.DefaultRequestHeaders.Add("AcceptEncoding", "gzip, deflate, br")             client.DefaultRequestHeaders.Add("AcceptLanguage", "zh-CN,zh;q=0.9")             client.DefaultRequestHeaders.Add("ContentLength", "340")             client.DefaultRequestHeaders.Add("ContentType", "application/json")             client.DefaultRequestHeaders.Add("UserAgent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36")             client.DefaultRequestHeaders.Add("Authority", "flights.ctrip.com")             client.DefaultRequestHeaders.Add("Method", "POST")             client.DefaultRequestHeaders.Add("Path", "/itinerary/api/12808/products")             client.DefaultRequestHeaders.Add("Scheme", "https")             client.DefaultRequestHeaders.Add("Origin", "https://flights.ctrip.com")             client.DefaultRequestHeaders.Add("Referer", "https://flights.ctrip.com/itinerary/oneway/sha-ckg?date=2019-02-12“)

然后运行之后得到的信息是{"status":0,"data":{"error":{"code":"1004","msg":"查询异常,请稍后再试"},"loginState":0}},请问是我哪里出错了呢?
我的content里的信息是按照payload来的,request的header是按照网页上的requestheader来的

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
httpclient 动态网页获取
-
httpclient登陆到别的系统获取数据
-
HttpClient解析数据获取丢失
-
httpclient获取到的网页内容和查看网页源代码的内容不同
-
通过HttpClient获取验证码图片问题
-
httpclient 只能抽取第一页数据
-
求助大神 用httpclient获取网页内容,然后筛选内容做一个查询
-
HttpClient4.5.2获取cookieStore问题
-
c# httpclient调用webapi获取json数据
-
httpclient传递的参数如何获取
-
HTTPClient可否保持一个会话,就好像浏览器自动跳转、或执行JS
-
.NET后台 httpclient 如何post请求获取返回的数据
-
HttpClient模拟登陆如何获取cookies
-
HttpClient如何指定CipherSuites
-
httpclient HttpResponse获取不到Location问题
-
HttpClient请求网址返回javascript乱码
-
httpclient获取cookie为空
-
用httpclient或者htmlunit解析这个网页是无法获取到内容
-
httpclient 如何调用js命令
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
知乎上 40 个有趣回复,很精辟很提神
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 |佚名来源 |网络整理,版权归原作者所有,侵删。1交朋友的标准是什么?- Ques...
武汉为什么进不了互联网第一梯队?
作者 |盛佳莹、张帆 本文经授权转自猎云网(ID:ilieyun) 从2011年以前双创在武汉萌芽,到现在力争互联网第四极,看武汉的互联网企业如何成长。 艰难中萌芽 2011年高考前夕,付小龙坐在宿舍里用人生第一台智能手机听广播,电台里正在讲述姚欣休学创业做出了用户量逾4亿的视频平台PPTV。 夜深人静时,仿佛有什么东西击中了付小龙的内心,“像姚欣一样‘开公司,...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
别再翻了,面试二叉树看这 11 个就够了~
写在前边 数据结构与算法: 不知道你有没有这种困惑,虽然刷了很多算法题,当我去面试的时候,面试官让你手写一个算法,可能你对此算法很熟悉,知道实现思路,但是总是不知道该在什么地方写,而且很多边界条件想不全面,一紧张,代码写的乱七八糟。如果遇到没有做过的算法题,思路也不知道从何寻找。面试吃了亏之后,我就慢慢的做出总结,开始分类的把数据结构所有的题型和解题思路每周刷题做出的系统性总结写在了 Github...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
用Python分析2000款避孕套,得出这些有趣的结论
到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是: 第一篇:Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。 第二篇:淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。 第三篇:Python爬取淘宝商品避孕套,教大家如何爬取淘宝pc端商品信息。 今天,我们来看看淘宝系列的第四篇 我们在上一篇的时候已经将淘宝数据爬取下来了,...
IPv6 带来的反欺诈难题,程序员该如何破解?
作者 |威胁猎人 本文转载自威胁猎人(ID:ThreatHunter) IP是互联网最基础的身份标识,也是黑灰产业发展不可或缺的底层资源支撑。如果说IPv4是一颗星球,那IPv6就是一整个宇宙,它的地址空间接近无限。本文将揭露目前黑灰产对IPv6资源的利用情况,并剖析在IPv4向IPv6升级的过程中,业务场景下的安全将面临的挑战。 黑灰产采用IPv6发起攻击的趋势不可逆转...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
面试官:兄弟,说说基本类型和包装类型的区别吧
Java 的每个基本类型都对应了一个包装类型,比如说 int 的包装类型为 Integer,double 的包装类型为 Double。基本类型和包装类型的区别主要有以下 4 点。
C语言这么厉害,它自身又是用什么语言写的?
这是来自我的星球的一个提问:“C语言本身用什么语言写的?”换个角度来问,其实是:C语言在运行之前,得编译才行,那C语言的编译器从哪里来? 用什么语言来写的?如果是用C语...
面试官,不要再问我三次握手和四次挥手
三次握手和四次挥手是各个公司常见的考点,也具有一定的水平区分度,也被一些面试官作为热身题。很多小伙伴说这个问题刚开始回答的挺好,但是后面越回答越冒冷汗,最后就歇菜了。 见过比较典型的面试场景是这样的: 面试官:请介绍下三次握手 求职者:第一次握手就是客户端给服务器端发送一个报文,第二次就是服务器收到报文之后,会应答一个报文给客户端,第三次握手就是客户端收到报文后再给服务器发送一个报文,三次握手就...
一些实用的GitHub项目
最近整理了一些在GitHub上比较热门的开源项目关于GitHub,快速了解请戳这里其中涵盖了:学习教程,面试总结,实用工具,框架,机器学习等东西比较杂,要学的东西也比较多...
八大排序(C语言)
void BubbleSort();//冒泡 void SelectSort();//选择 void InsertSort();//直接插入 void ShellSort();//希尔 void HeapSort();//堆排 void QuickSort();//快排 void MegerSort();//归并 void RadixSort();//基数(桶排序) 冒泡: 1)...
为什么说 Web 开发永远不会退出历史舞台?
早在 PC 崛起之际,Web 从蹒跚学步一路走到了主导市场的地位,但是随着移动互联网时代的来临,业界曾有不少人猜测,“Web 应该被杀死,App 才是未来”。不过时间是检...
动画:用动画给面试官解释 TCP 三次握手过程
作者 | 小鹿 来源 | 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对于一个初学者来说。 学习导图 一、TCP 是什么? TCP(Transmissio...
500行代码,教你用python写个微信飞机大战
这几天在重温微信小游戏的飞机大战,玩着玩着就在思考人生了,这飞机大战怎么就可以做的那么好,操作简单,简单上手。 帮助蹲厕族、YP族、饭圈女孩在无聊之余可以有一样东西让他们振作起来!让他们的左手 / 右手有节奏有韵律的朝着同一个方向来回移动起来! 这是史诗级的发明,是浓墨重彩的一笔,是…… 在一阵抽搐后,我结束了游戏,瞬时觉得一切都索然无味,正在我进入贤者模式时,突然想到,如果我可以让更多人已不同的方式体会到这种美轮美奂的感觉岂不美哉? 所以我打开电脑,创建了一个 `plan_game.py`……
相关热词 c#怎么调用api接口 c# 调用mstsc c#扩展函数 c#向上转换向下转换 c#chart直方图叠加 c# 添加body样式 c# 调用接口 c#高德地图经纬度查询 c# 测试并发 c# 取操作系统