great82149 2015-05-07 13:24 采纳率: 0%
浏览 2590
已采纳

小弟想写个可以解析js的网络爬虫,C++,不知如何下手,故在此请教各位大神

小弟我曾经写过HttpClient的网络爬虫
但是那种爬虫对于html内部内嵌的js无能为力,有的js会有跳转指令

还有的js会对部分html代码混淆(有个公布http代理的网站,看网页源代码基本是乱的,全部是document.write)

所以想到利用开源的浏览器实现真实模拟访问+抓取正确内容(总之就是要实现真实的访问)
查询了c++的js引擎有duktape(这个好像只是js执行器),v8
浏览器内核有webkit
但是确实不知该怎么下手
不知有哪位朋友做过类似的东西,可否给些提示?
万分感谢

  • 写回答

1条回答

  • oyljerry 2015-05-07 14:11
    关注

    c++用webkit来加载页面执行js,然后得到页面的dom内容等。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥40 复杂的限制性的商函数处理
  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题