Java_爬虫，如何抓取Js动态生成数据的页面？

很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。

HttpClient是不行的，看网上说HtmlUnit，说可以获取后台js加载完后的完整页面，但是我按照文章上说的写了，都不好使。

String url = "http://xinjinqiao.tprtc.com/admin/main/flrpro.do";
try {
    WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10);
    //设置webClient的相关参数
    webClient.getOptions().setJavaScriptEnabled(true);
    webClient.getOptions().setCssEnabled(false);
    webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    //webClient.getOptions().setTimeout(50000);
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    //模拟浏览器打开一个目标网址
    HtmlPage rootPage = webClient.getPage(url);
    System.out.println("为了获取js执行的数据 线程开始沉睡等待");
    Thread.sleep(3000);//主要是这个线程的等待 因为js加载也是需要时间的
    System.out.println("线程结束沉睡");
    String html = rootPage.asText();
    System.out.println(html);
} catch (Exception e) {
}

其实这段代码不好使。

求解答，其中典型的就是这个链接的页面，怎么能在java程序中获取其中的数据？

http://xinjinqiao.tprtc.com/admin/main/flrpro.do

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
黄菲 2014-07-28 08:21
关注
我之前也遇到过这个问题，网上说法很多，不过觉得都没有解决问题，后来相过有什么功能可以获取请求某一个url地址时所附带请求的其他链接地址，但是这个好像说是用抓包可以实现，不过我没实现

只能采用最原始的方法就是就是自己去模拟一个请求，将js中ajax的链接地址拼接出来，再次进行请求，这个时候需要注意post方式还是get方法

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

Java_爬虫，如何抓取Js动态生成数据的页面？ java 爬虫
2014-07-25 17:44

回答 5 已采纳我之前也遇到过这个问题，网上说法很多，不过觉得都没有解决问题，后来相过有什么功能可以获取请求某一个url地址时所附带请求的其他链接地址，但是这个好像说是用抓包可以实现，不过我没实现只能采用最原
急！请问java的jsoup爬虫如何完整获得响应验证码？ java 开发语言爬虫
2022-04-21 11:40

回答 2 已采纳代码抛了异常，后面的代码没有执行。try catch 下抛出异常的代码试下。
JS生成的页面数据爬虫 python
2021-07-03 15:42

回答 1 已采纳 PyExecJs库，把该js文件爬下来，执行就可以。如果该js无返回数据的方法，为了返回该js执行后生成的内容，可以在js文件里补充get方法定义，再编入execjs。比如eval(getImgs=f
java 抓取动态页面_Java_爬虫，如何抓取Js动态生成数据的页面？
2021-02-28 15:03

weixin_39802132的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。...
java爬虫页面class都一样怎么办 java 爬虫
2018-09-29 03:13

回答 1 已采纳最好能上个样例.自己寻找规律自定义吧.一般现在的网站为了防止非法抓取数据都是做一些防护的.
用python写爬虫和用Java写爬虫的区别是什么？ java python 爬虫
2016-04-26 01:53

回答 6 已采纳 python开发起来方便，快速，爬虫库也比较好用，scrapy
java爬取网站数据时，报<strong>请开启JavaScript并刷新该页.</strong>，求解决方法 java javascript 有问必答爬虫
2022-02-09 17:25

回答 3 已采纳我遇到过两种网站是这养的,1.第一种是需要加cookie参数,加上了就可以 2.第二种就是直接使用selenium模拟浏览器
java 爬虫 js_Java_爬虫，如何抓取Js动态生成数据的页面？
2021-03-22 14:57

朱子宁的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。...
关于#天猫反爬虫#的问题，如何解决？ python 爬虫
2022-08-15 18:55

回答 2 已采纳你这样去爬天猫肯定是要被反爬的，代理都不加上，如果数据量小，可以加上代理跑一跑，但是如果数据量比较大的话，你是绕不开滑块验证码的，而出不出现验证码是根据你的cookie来决定的，提供一个大批量跑的思路
这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数? python 爬虫
2021-09-06 00:23

回答 2 已采纳可以用meta累计请求次数，在后续的请求中获取请求次数。 def parse(self, response): meta = {'crawlCnt': 0} if response.met
关于 java 利用jsoup爬取图片的问题？ java 爬虫
2023-02-13 14:54

回答 3 已采纳每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！
爬虫网页的数据 java_Java_爬虫，如何抓取Js动态生成数据的页面？
2021-03-06 06:22

weixin_39667509的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。...
如何用request获取页面动态数据？爬虫
2023-03-21 23:25

回答 1 已采纳点击，看是不是从后台发送到前端，如果是这样的话，f12会有json数据接口，你直接会对这个接口发起请求，就可以获得了。也就是说要判断这个联系方式是静态的还是动态加载的，静态的，你搜索应该内找到位置。
java动态生成js文件_Java_爬虫，如何抓取Js动态生成数据的页面？
2021-02-28 19:10

Dr.Blue的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。...
java 动态网页抓取_Java_爬虫，如何抓取Js动态生成数据的页面？
2021-03-07 00:02

穆庭秋的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。...
没有解决我的问题, 去提问

悬赏问题

¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程

Java_爬虫，如何抓取Js动态生成数据的页面？

5条回答 默认 最新

悬赏问题

5条回答默认最新