小弟想写个可以解析js的网络爬虫,C++,不知如何下手,故在此请教各位大神

小弟我曾经写过HttpClient的网络爬虫
但是那种爬虫对于html内部内嵌的js无能为力,有的js会有跳转指令

还有的js会对部分html代码混淆(有个公布http代理的网站,看网页源代码基本是乱的,全部是document.write)

所以想到利用开源的浏览器实现真实模拟访问+抓取正确内容(总之就是要实现真实的访问)
查询了c++的js引擎有duktape(这个好像只是js执行器),v8
浏览器内核有webkit
但是确实不知该怎么下手
不知有哪位朋友做过类似的东西,可否给些提示?
万分感谢

1个回答

c++用webkit来加载页面执行js,然后得到页面的dom内容等。

great82149
great82149 谢谢,我去尝试一下
接近 5 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问