小弟我曾经写过HttpClient的网络爬虫
但是那种爬虫对于html内部内嵌的js无能为力,有的js会有跳转指令
还有的js会对部分html代码混淆(有个公布http代理的网站,看网页源代码基本是乱的,全部是document.write)
所以想到利用开源的浏览器实现真实模拟访问+抓取正确内容(总之就是要实现真实的访问)
查询了c++的js引擎有duktape(这个好像只是js执行器),v8
浏览器内核有webkit
但是确实不知该怎么下手
不知有哪位朋友做过类似的东西,可否给些提示?
万分感谢