关于linux下模拟浏览器获取动态网页的方法

   最近在开发一个爬虫，抓取新浪网页，直接通过下载新浪首页的源码，然后字符串解析源码里面的所有url，再递归式的抓取一定深度后停止。
  但是，现在网页基本都是动态网页，有些url可能是加载后才能生成的，所以目前的方法导致抓取的网页里面有些东西下载不全。
   目前的想法是，linux下有没有什么框架可以模拟浏览器，获得加载后的网页内容，再提取里面的url，或者截获加载过程中浏览器发出的http请求的url，这样应该可以确保抓取网页的完整性。另外，目前是linux下c++开发的，最好不用换平台和语言，多谢各位了！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-08-30 10:24
关注
用phantomjs
http://phantomjs.org/download.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Unity内嵌浏览器网页插件 Embedded Browser，公司买的，拿出来分享学习交流
2025-08-04 13:56

Unity内嵌浏览器网页插件 Embedded Browser在纹理上渲染一个网页，并与它进行互动！加速库存管理器、简化注册页面或以闪电速度构建 UI！支持的平台 - Windows 32 位独立平台（Mono） - Windows 64 位独立平台（Mono...
基于Python3与Selenium自动化网页网络认证登录工具_支持谷歌浏览器驱动跨平台兼容Windows_Linux_Mac系统_通过requests库模拟HTTP请求与浏览器自.zip
2025-08-21 12:17

我们可以推测该工具能够同时模拟浏览器端的行为（如点击按钮）以及后端服务器的交互（通过HTTP请求），这为自动化处理复杂的登录认证流程提供了可能，包括处理那些涉及到JavaScript动态生成内容或需要与服务器多次...
如何使用linux做一个开机直接全屏显示浏览器访问特定的网站，且不可以显示浏览器的地址栏工具等内容？
2024-07-19 08:44

纵然间的博客要在Linux系统中实现开机直接全屏显示浏览器并访问特定网站，同时不显示浏览器的地址栏、工具栏等内容，你可以通过几种方法来实现，这里主要介绍两种常用的方法：使用Kiosk模式（适用于Chrome、Chromium、Firefox等...
基于PHP的动态网页设计毕业论文
2024-01-19 15:22

在互联网的快速发展中，PHP作为一门强大的...读者将了解到从需求分析到功能实现的全过程，掌握动态网页开发的基本技术和方法。这不仅有助于理解PHP在Web开发中的强大功能，也为今后的网站开发项目提供了实践指导。
LinuxOnBrowser:在浏览器上部署Linux！
2021-05-09 01:51

此外，项目可能还使用了其他技术，如Node.js作为后端服务器，处理WebSockets连接，以及可能的虚拟化技术，如KVM（Kernel-based Virtual Machine）或者QEMU，来模拟硬件环境，使Linux内核能够在WebAssembly上运行。...
在线运行 Linux，真滴牛逼。
2021-12-30 16:06

Jack Tian的博客 2、OnWorks OnWorks 是一个免费的托管运行 Linux Mint 在线服务器，需要在 Chrome 浏览器中安装 Linux Mint 在线服务器插件，是可以基于多种操作系统，例如：CentOS、Fedora、Ubuntu 和 Debian 等等，是一个多操作...
linux下java调用浏览器
2012-11-14 08:42

AndersJing的博客最近在做一个项目，是在debian的linux环境下用java开发的，因为系统没有安装图形界面，于是采用调用浏览器显示特定网页来实现的方案。现在可以找到的java调用linux浏览器的方法主要有3种，第一种是调用桌面...
Java利用ChromeDriver插件网页截图（Wondows版+Linux版）
2024-10-12 16:17

cqwuliu的博客 chromedriver是谷歌浏览器驱动,用来模拟谷歌运行操作的一个工具，本文主要讲解Java后端利用此插件进行网页截图，并且适配Linux部署。环境准备Wondows服务器或电脑本机需安装Chrome谷歌浏览器，根据本机浏览器版本，...
基于JavaScript的个人数据计算模拟系统设计源码
2024-09-29 16:47

本项目是一个基于JavaScript语言开发的个人数据计算模拟系统，其源码完整地体现了如何通过编程实现个人数据的模拟计算过程。源码由652个文件组成，涵盖了多种编程语言和文件类型，突显了系统的全面性和多样性。具体...
Linux环境下使用tomcat+nginx部署若依项目
2024-12-21 22:28

rainbow--的博客 Linux + Tomcat + MySQL + Java 是构建动态网站系统的完美解决方案之一，具有免费、高效、扩展性强且资源消耗低等优良特性。 Java Web 凭借其优秀的开发框架和良好的生态被广泛应用于社会各行业的信息化系统构建。...
没有解决我的问题, 去提问

关于linux下模拟浏览器获取动态网页的方法

2条回答 默认 最新

2条回答默认最新