great82149 2015-05-07 13:24 采纳率: 0%
浏览 2590
已采纳

小弟想写个可以解析js的网络爬虫,C++,不知如何下手,故在此请教各位大神

小弟我曾经写过HttpClient的网络爬虫
但是那种爬虫对于html内部内嵌的js无能为力,有的js会有跳转指令

还有的js会对部分html代码混淆(有个公布http代理的网站,看网页源代码基本是乱的,全部是document.write)

所以想到利用开源的浏览器实现真实模拟访问+抓取正确内容(总之就是要实现真实的访问)
查询了c++的js引擎有duktape(这个好像只是js执行器),v8
浏览器内核有webkit
但是确实不知该怎么下手
不知有哪位朋友做过类似的东西,可否给些提示?
万分感谢

  • 写回答

1条回答 默认 最新

  • oyljerry 2015-05-07 14:11
    关注

    c++用webkit来加载页面执行js,然后得到页面的dom内容等。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥35 平滑拟合曲线该如何生成
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 自己瞎改改,结果现在又运行不了了
  • ¥15 链式存储应该如何解决
  • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站