Java爬虫如何实现在需要点击的网页中获取需要的内容

大佬们好!作为一个爬虫新手,最近在尝试用Java爬虫获取动态网页数据是遇到了一些问题。我要爬的网站在点击之后数据会产生一些变化,我在用select定位到我需要的数据后依然无法成功将其打印出来,想请教一下在这种情况下怎么获取我需要的数据。感谢!

1个回答

定位到了无法打印是一种什么情况

u014794644
瓦史托德 回复weixin_43925350: 那就模拟点击啊
一年多之前 回复
weixin_43925350
WillisGo 应该是动态网页,源码随着js而改变的。所以我不点击的话爬虫是爬不到数据的
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何用Java爬虫获取网页中的文本内容?

如何用Java爬虫获取一个网页中的文本内容(不是源代码,是内容)? 求代码!!!!

利用JAVA爬虫如何实现Web网页的保存

给定一个网站地址(如http://www.souhu.com,程序运行时,输入网站地址,下载本网站的页面及页面包含的相关的其他资源文件(超链接,图片文件,样式文件,脚本文件),并保存在本地文件中,实现整个网站的离线浏览。

java爬虫如何获取非html页面内容

这几天在写一个爬虫程序爬课表,但是课表不是一个html页面,没有html标签,相当于一个文本文档,所以每次获取这个页面内容返回的结果都是空,求教应该怎么获取这个页面的内容?

Java爬虫在爬取动态生成数据的网页时怎样效率最高?

大佬们好,我目前刚刚开始研究Java爬虫。在尝试爬取通过Javascript生成数据的网页时,我使用了HTMLUnit去模拟JS的各种操作,但是即便使用了多线程,也觉得效率很一般。希望各位大佬提供一个最高效的爬虫方法。感谢!

java 爬虫爬取网页,,,,

我要使用java爬虫爬取一个网站, 那个网站需要模拟登陆, 用的是第三方的验证码, 而且验证码是点击验证图片后由多张图片组成的。请问一下各位大神这个该怎么破

java爬虫获取小说相关内容

图片路径,点击路径,章节内容该如何爬取,最好有相关的代码可以共享一下

关于Java爬虫问题onclick事件中event

html 界面里面有这样一段代码 <div href-new-event="" event-name="登录注册-注册" class="c-white b-c9 pt8 f18 text-center login_btn" onclick="loginByPhone(event);">注册 </div> 如何才能模拟这个onclick事件,里面的event 怎么模拟?

webKit 实现爬虫 java

做爬虫得时候遇到一个比较难搞定的网站,同事介绍说可以用webkit试下,我的具体需求是 模拟真实浏览器,取出登录之后的页面内容。 不知道webkit能否实现,有没有大神对webkit熟悉的。。。

java爬虫 模拟登陆 验证码

我需要破解一个验证码, 点击后事件验证后由两张乱码的图片合成。请问该如何破解。

java爬虫中的字符串截取问题

刚开始接触爬虫,已先将网页爬虫至tizi.txt,要从中获取作者和其发表的内容,一开始用的缓存,代码如下: import java.io.*; public class SpiderTest01 { public static void main(String[] args) throws IOException { FileReader fr = null; FileWriter fw = null; try { fr = new FileReader("d:/tiezi.txt"); fw = new FileWriter("d:/replace.txt"); BufferedReader bufr = new BufferedReader(fr); BufferedWriter bufw = new BufferedWriter(fw); String line = null; String name = null; String text = null; String userNameBegin = "=utf-8\" target=\"_blank\">"; String userNameEnd = "</a>"; String userTextBegin = "class=\"d_post_content j_d_post_content clearfix\">"; String userTextEnd = "</div><br>"; while ((line = bufr.readLine()) != null) { String userstr = null; String textstr = null; if (line.contains(userNameBegin) & line.contains(userNameEnd)) { // 若一行中包含开头和结尾 name = line.substring(line.indexOf(userNameBegin) + 24, line.indexOf(userNameEnd)); } else if (line.contains(userNameBegin) & (line.contains(userNameEnd) == false)) { userstr = line.substring(line.indexOf(userNameBegin)); } else if (line.contains(userNameEnd) & (line.contains(userNameBegin) == false)) { name = userstr + line.substring(0, line.indexOf(userNameEnd)); } if(name!=null){ bufw.write(name + '#'); bufw.flush(); } // 文本匹配 if (line.contains(userTextBegin) & line.contains(userTextEnd)) { // 若一行中包含开头和结尾 text = line.substring(line.indexOf(userTextBegin) + 36, line.indexOf(userTextEnd)); } else if (line.contains(userTextBegin) & (line.contains(userTextEnd) == false)) { textstr = line.substring(line.indexOf(userTextBegin)); } else if (line.contains(userTextEnd) & (line.contains(userTextBegin) == false)) { text = userstr + line.substring(0, line.indexOf(userTextEnd)); } if(text!=null){ bufw.write(text); bufw.flush(); } else { continue; } } bufr.close(); bufw.close(); } catch (IOException e) { throw new RuntimeException("读写失败"); } } } 在replace文件中发现并不是想要获取的内容,在想,是不是因为readline方法的局限问题,因为标识符有可能出现在一行的结尾和下一行的开始处,故采用数组方式获取,代码如下: import java.io.*; public class SpiderTestDemo02 { public static void main(String[] args) throws IOException{ FileWriter fw =null; FileReader fr =null; String name = null; String text = null; //定义作者开头及结尾标识,以及正文开始和结尾标识 String userNameBegin = "=utf-8\" target=\"_blank\">"; String userNameEnd = "</a>"; String userTextBegin = "class=\"d_post_content j_d_post_content clearfix\">"; String userTextEnd = "</div><br>"; try { //指定读写路径 fw = new FileWriter("d:/tizi.txt"); fr = new FileReader("d:/replace.txt"); char[] ch = new char[1024]; int len = 0; while((len=fr.read())!=-1)//读取原文件内容至数组 { String line = new String(ch,0,len); if (line.contains(userNameBegin)) { if(line.contains(userNameEnd)) { // 若一行中包含开头和结尾 name = line.substring(line.indexOf(userNameBegin) + 24, line.indexOf(userNameEnd)); fw.write(name+"#"); fw.flush(); } } if (line.contains(userTextBegin)) { if(line.contains(userTextEnd)) { // 若一行中包含开头和结尾 text = line.substring(line.indexOf(userTextBegin) + 36, line.indexOf(userTextEnd)); fw.write(text); fw.write("\r\n"); fw.flush(); } } if(line.contains(userNameBegin)==false&line.contains(userTextBegin)==false) { continue; } } fr.close(); fw.close(); }catch(IOException e){ System.out.print(e); } } } 结果这次运行的结果是replace文件中无任何数据,求大婶指点

selenium+headless chrome实现爬虫并根据url进行长网页快照截屏(Java)

如标题用selenium+headless chrome进行了网页爬取,然后讲爬取的网页进行快照截图,实现的都是当前页截图,怎么是实现将整个网页都截取下来,也可以不用headless chrome谷歌ie浏览器的都可以

关于java网络爬虫遇到重定向的情况

http://weixin.sogou.com/weixin?query=AECOM&fr=sgsearch&type=2&ie=utf8&w=01019900&sut=3992&sst0=1442279218592&lkt=4%2C1442279216085%2C1442279217157 这十个列表页面,我想知道每条新闻的真实链接,因为重定向过,不知道怎么写,求大神指导 ![图片说明](https://img-ask.csdn.net/upload/201509/15/1442284597_861578.png)

网页输入框中输入的内容可以用爬虫获取到嘛

如题,一个网页输入框中的内容可以用爬虫获取到吗,比如一个注册信息网页,我想把 该页面下的输入信息一次性爬取下来怎么做,谢谢大佬给点方法

Java爬虫爬取知乎首页,结果显示为一对中括号,使用的eclipse码的代码。

以下的代码是我照着网上的一篇文章写的,最后出现以下错误: 这是Main类 package aZhihu; import java.util.ArrayList; public class Main { public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 String content = Spider.SendGet(url); // 获取该页面的所有的知乎对象 ArrayList<Zhihu> myZhihu = Spider.GetZhihu(content); // 打印结果 System.out.println( myZhihu); } } 这是爬虫类: import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { static String SendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(), "UTF-8")); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static ArrayList<Zhihu> GetZhihu(String content) { // 预定义一个ArrayList来存储结果 ArrayList<Zhihu> results = new ArrayList<Zhihu>(); // 用来匹配标题 Pattern questionPattern = Pattern.compile("question_link.+?>(.+?)<"); Matcher questionMatcher = questionPattern.matcher(content); // 用来匹配url,也就是问题的链接 Pattern urlPattern = Pattern.compile("question_link.+?href=\"(.+?)\""); Matcher urlMatcher = urlPattern.matcher(content); // 问题和链接要均能匹配到 boolean isFind = questionMatcher.find() && urlMatcher.find(); while (isFind) { // 定义一个知乎对象来存储抓取到的信息 Zhihu zhuhuTemp = new Zhihu(); zhuhuTemp.question = questionMatcher.group(1); zhuhuTemp.zhihuUrl = "http://www.zhihu.com" + urlMatcher.group(1); // 添加成功匹配的结果 results.add(zhuhuTemp); // 继续查找下一个匹配对象 isFind = questionMatcher.find() && urlMatcher.find(); } return results; } } 这里是一个zhihu类。存放爬取来的问题 import java.util.ArrayList; public class Zhihu { public String question;// 问题 public String zhihuUrl;// 网页链接 public ArrayList<String> answers;// 存储所有回答的数组 // 构造方法初始化数据 public Zhihu() { question = ""; zhihuUrl = ""; answers = new ArrayList<String>(); } @Override public String toString() { return "问题:" + question + "\n链接:" + zhihuUrl + "\n回答:" + answers + "\n"; } }

Java_爬虫,如何抓取Js动态生成数据的页面?

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。

Java 网络爬虫源码以及jar包,最最主要是Java写的,

有谁可以提供Java网络爬虫源码以及jar包.谢谢了,最近想做,没找到合适的资源,应该是很老的东西了吧

java爬虫webMagic用正则表达式匹配a标签的onclick里面的值

java爬虫webMagic用正则表达式匹配a标签的onclick里面queryArticleByCondition方法里的this后面的值,就是一个URL地址 ``` <a style="cursor:pointer" onclick="queryArticleByCondition(this,'/liuyanggov/dwzt/ggzyjyzx/jyxx96/fjsz34/zbgg97/2a7bc3f8-3.html')" tagname="/liuyanggov/dwzt/ggzyjyzx/jyxx96/fjsz34/zbgg97/2a7bc3f8-3.html">下一页</a> ```

用python写爬虫和用Java写爬虫的区别是什么?

为什么大多数都用python写爬虫 python有爬虫库吗?

Python爬虫,进去一个网页之后,想要跳转到这个网页的子网页爬取,但是必须通过主网页点击才能进去。

![图片说明](https://img-ask.csdn.net/upload/201906/30/1561848305_28809.jpg) 上面是按F12得到的该网页进入“子网页”的函数,请问怎么处理才能进去“子网页”页面?(直接访问子网页网址会提示你要从主网页进去)

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

Linux命令学习神器!命令看不懂直接给你解释!

大家都知道,Linux 系统有非常多的命令,而且每个命令又有非常多的用法,想要全部记住所有命令的所有用法,恐怕是一件不可能完成的任务。 一般情况下,我们学习一个命令时,要么直接百度去搜索它的用法,要么就直接用 man 命令去查看守冗长的帮助手册。这两个都可以实现我们的目标,但有没有更简便的方式呢? 答案是必须有的!今天给大家推荐一款有趣而实用学习神器 — kmdr,让你解锁 Linux 学习新姿势...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

史上最全的 python 基础知识汇总篇,没有比这再全面的了,建议收藏

网友们有福了,小编终于把基础篇的内容全部涉略了一遍,这是一篇关于基础知识的汇总的文章,请朋友们收下,不用客气,不过文章篇幅肯能会有点长,耐心阅读吧爬虫(七十)多进程multiproces...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

新一代神器STM32CubeMonitor介绍、下载、安装和使用教程

关注、星标公众号,不错过精彩内容作者:黄工公众号:strongerHuang最近ST官网悄悄新上线了一款比较强大的工具:STM32CubeMonitor V1.0.0。经过我研究和使用之...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

大学一路走来,学习互联网全靠这几个网站,最终拿下了一把offer

大佬原来都是这样炼成的

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

你期望月薪4万,出门右拐,不送,这几个点,你也就是个初级的水平

先来看几个问题通过注解的方式注入依赖对象,介绍一下你知道的几种方式@Autowired和@Resource有何区别说一下@Autowired查找候选者的...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

立即提问
相关内容推荐