小弟想写个可以解析js的网络爬虫，C++，不知如何下手，故在此请教各位大神

小弟我曾经写过HttpClient的网络爬虫
但是那种爬虫对于html内部内嵌的js无能为力，有的js会有跳转指令

还有的js会对部分html代码混淆（有个公布http代理的网站，看网页源代码基本是乱的，全部是document.write）

所以想到利用开源的浏览器实现真实模拟访问+抓取正确内容（总之就是要实现真实的访问）
查询了c++的js引擎有duktape（这个好像只是js执行器），v8
浏览器内核有webkit
但是确实不知该怎么下手
不知有哪位朋友做过类似的东西，可否给些提示？
万分感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2015-05-07 14:11
关注
c++用webkit来加载页面执行js，然后得到页面的dom内容等。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

小弟想写个可以解析js的网络爬虫，C++，不知如何下手，故在此请教各位大神 c++ firefox javascript 爬虫
2015-05-07 13:24

回答 1 已采纳 c++用webkit来加载页面执行js，然后得到页面的dom内容等。
请教各位大拿，现在流行的网络爬虫有什么用 python 爬虫
2018-12-10 10:08

回答 5 已采纳 (1)爬虫有什么用，主要有两个，一个是抓取数据，下载文件；一个是机器人，模拟人对网站操作。前者你已经基本知道了，后者，比如12306刷票，水军刷评论，操作一些没有提供api接口的网站，比如查询快递
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
C++网络爬虫
2019-05-17 20:53

lc766666的博客注意：这篇文章主要是关于怎样设计C++爬虫代码框架，具体实现还是得自己去开发，希望大家能有所收获。 1.关于项目需求、设计、编码、测试、集成 2.软件开发要掌握的思想模块思维渐进式开发 3.需求：自动抓取网络...
请教一个有关于python写的爬虫代码和vue、java之间的联系的问题 java python vue.js
2022-04-01 09:25

回答 2 已采纳就普通的web应用，后台用java，前端vue，然后爬虫用java调用python脚本就行
请教大神，一个爬虫问题 python
2019-09-20 13:36

回答 3 已采纳解决方法：通过浏览器查看登录状态的cookie信息，假设为 Cookie: a=b,c=d 然后在gethtmltext 函数的请求头 kv中添加键值对，也就是在kv那行的下面添加 kv['Coo
Jsoup写的一个简单的爬虫出现502 java 爬虫
2022-09-17 20:13

回答 1 已采纳这篇博客也许可以解决你的问题👉 ：Jsoup简单理解笔记
C++实现爬虫,深入理解爬虫原理(最详细,最简单的教程)
2022-02-23 14:11

余识-的博客用C++实现当前流行的爬虫,爬取某站点的图片,深入理解爬虫的原理
我在做爬虫时需要同时打开30个Headless Chrome，请问什么配置可以满足爬虫
2022-03-26 17:50

回答 3 已采纳你为什么要开30个线程？装64位系统，内存加到至少32G，CPU暂时别换，CPU使用率高可能是内存阻塞了。速度快，就要配置高，买i9
关于#爬虫#的问题，请各位专家解答！(语言-python) python 爬虫
2023-03-01 16:32

回答 1 已采纳【若有帮助，望给个采纳，谢谢！】原因：因为返回的json字符串外层有一个方法，需要去掉那个方法再转json # coding=UTF-8 import requests import json
请教个爬虫的问题，xpath的语句应该怎么写 python
2021-12-08 09:47

回答 1 已采纳 data_list = data.xpath("//div[@class='nc-light-gallery']") for d in data_list: url = d.xpath("./
C++ 网络爬虫代码
2018-09-24 12:14

C++ Winsock 网络编程仅支持http协议 Socket进行网络连接解析整个html代码宽度优先搜索，像爬虫一样遍历网页正则表达式提取图片URL 将图片命名，保存在目录下
爬虫爬出的数据，print输出可以全部输出，但是写入CSV文件时只能写最后一行 python 爬虫
2022-02-22 08:10

回答 3 已采纳 # -*- coding:utf-8 -*- import requests import csv,re url1 = 'http://category.dangdang.com/' url2
学1个月爬虫就月赚6000？别被骗了，老师傅告诉你爬虫的真实情况
2021-08-01 17:53

退休的龙叔的博客爬虫的四个水平，你在哪一个层次？巅峰爬虫是什么样子？
有哪些计算机语言可以爬虫,爬虫是干嘛的？用什么语言学爬虫好？
2021-07-17 07:51

好姑娘老妖的博客在讲解之前我们先来了解下百度百科对于网络爬虫是如何定义的：网络爬虫(又被称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。...
没有解决我的问题, 去提问

悬赏问题

¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题