关于linux下模拟浏览器获取动态网页的方法

   最近在开发一个爬虫，抓取新浪网页，直接通过下载新浪首页的源码，然后字符串解析源码里面的所有url，再递归式的抓取一定深度后停止。
  但是，现在网页基本都是动态网页，有些url可能是加载后才能生成的，所以目前的方法导致抓取的网页里面有些东西下载不全。
   目前的想法是，linux下有没有什么框架可以模拟浏览器，获得加载后的网页内容，再提取里面的url，或者截获加载过程中浏览器发出的http请求的url，这样应该可以确保抓取网页的完整性。另外，目前是linux下c++开发的，最好不用换平台和语言，多谢各位了！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-08-30 10:24
关注
用phantomjs
http://phantomjs.org/download.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何在Linux下搭建一个动态网页项目
2017-02-21 02:47

回答 3 已采纳首先你得创建开发一动态的网页项目，比如eclipse开发的Dynamic web project，右键项目导出，打个war包，例如：test.war,上传到Linux你安装的apapache-tomc
Linux下服务器发送图片时浏览器不能正确显示 c++ http linux
2023-01-25 17:48

回答 1 已采纳文件损坏，开头没有发现 jpeg
请问下怎么在linux脚本根据docker容器名获取容器id docker linux 容器
2022-05-17 09:09

回答 1 已采纳你这命令已经是查看对应容器名获取容器ID哦，只是 -a 是所有，如果是查看正在运行的，建议不用-a，直接 docker ps -qf "name=xxxx" 就OK 所以你在脚本上直接写个变量，就
在线运行 Linux，真滴牛逼。
2021-12-30 16:06

Jack Tian的博客 2、OnWorks OnWorks 是一个免费的托管运行 Linux Mint 在线服务器，需要在 Chrome 浏览器中安装 Linux Mint 在线服务器插件，是可以基于多种操作系统，例如：CentOS、Fedora、Ubuntu 和 Debian 等等，是一个多操作...
在Linux下如何获取摄像头数据推流 linux
2023-03-24 09:02

回答 2 已采纳 https://blog.csdn.net/CETET/article/details/128893442
linux 下关于 getrandom 和 /dev/urandom c语言 linux ssh
2022-03-10 15:03

回答 4 已采纳 getrandom 点击查看参考资料 http://man7.org/linux/man-pages/man2/getrandom.2.html getrandom 封装了对 /dev/urandom
linux下获取不到Resource下的配置文件？ linux
2018-12-10 09:46

回答 1 已采纳 String path = XssRequestWrapper.class.getClassLoader().getResource("antisamy-ebay.xml").getPath();
Java调用浏览器打开指定页面的5种方法(最全)
2018-07-17 11:21

BlueKitty1210的博客 import java.awt.*; import java.lang.reflect.Method; import java.net.URI; import java.util.Map;... * @title java调用浏览器打开指定页面 * @author Xingbz */ public class XDemo { private...
Linux 下的execl函数使用方法 linux
2020-10-14 16:19

回答 2 已采纳你怎么判断没有调用的，因为你的程序调用execl的分支并没有输出
关于Linux线程之间锁的问题 c语言 linux 后端
2021-08-02 09:30

回答 1 已采纳肯定要加啊，B在读的时候A改了x怎么办。这种读写问题很直观地就能想到读写锁不过如果不是多读少写的环境，只有读写两个线程的话，直接用互斥锁也行
小白关于linux下编译cplusplus的问题 c++ centos linux vim
2020-05-08 11:43

回答 2 已采纳直接使用g++ *.cpp就可以完成编译，生成的可执行文件是a.out，使用[-o]选项可以对可执行文件重命名，默认使用的是C++ 98标准，如果你用到了C++11标准的特性的话，就要使用[-s
linux下访问url命令
2022-04-05 17:17

m0_67393295的博客 1.curl命令并显示出源码 curl?http://127.0.0.1:9096 2、执行效果新时代农民工
关于#linux#的问题：Linux用什么命令动态地显示 Linux 的系统状况 linux
2022-03-12 16:36

回答 1 已采纳使用 top 命令，态度查看系统状况。若有所帮助，望采纳答案支持一下。继续加油
在嵌入式linux上玩OpenGL
2022-09-07 22:40

特立独行的猫a的博客想玩下OpenGL，倒不是板子flash或内存太小，而是底层图形接口是基于framebuffer的dev/fb0的，在标准的OpenGL下不支持。网上了解到在嵌入式linux或单片机上，可以跑OpenGL的一个子集，叫做TinyGL。OpenGL（全写Open ...
Linux常见面试题，一网打尽！
2021-05-15 17:40

Java技术江湖的博客 Linux 概述什么是Linux Unix和Linux有什么区别？什么是 Linux 内核？ Linux的基本组件是什么？ Linux 的体系结构 BASH和DOS之间的基本区别是什么？ Linux 开机启动过程？ Linux系统缺省的运行级别？ Linux 使用的...
没有解决我的问题, 去提问

悬赏问题

¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3