关于Jsoup登录网站,再次访问失败的问题 300C

图片说明

代码如图:
问题说明: 通过代码标识1处,可以成功得到cookies,在代码标识2处,可以得到cookie,在代码标识4处,传入该cookie,进行访问需要登录后的链接,访问失败,跳转到登录的页面了;

问题二:我首先通过浏览器登录该网站之后,从浏览器上得到cookie值,
把代码标识1处注释掉,把map和for循环也注释掉,代码标识2处也注释掉,把代码标识3处不注释,拷贝从浏览器上得到的cookie值,运行代码:可以成功得到objectDoc的内容,(标识代码4处)

跪求大神,如何解决这个问题?

8个回答

你得认真检查验证接口地址对了没有,接口验证需要的信息都提交了没有,如有些网站防止crsf会加上token值,你得将token值附带上,要不验证不用过你得到的sessionid没用。你得判断提交导数据到验证接口后返回的内容是否已经是验证通过的,如location跳转验证通过的页面或者是输出错误信息什么的

sessionid的cookie值是访问动态页就会自动生成的,但是服务器的session验证信息并没有生成

要是实在不行用HtmlUni,先模拟登陆,然后直接请求。不过效率慢一点,有些页面不光是认证cookie,我爬过一个页面,国外的,登陆以后光前端转发请求就有2次(加载一个空页面,然后请求另一个页面),说以怎么爬取一个网站要看网站的规则

whb3299065
whb3299065 回复指尖de柔情: 你看一下你通过代码得到的Cookie值的时候是否登录成功了,看看响应页面是什么,拿到Cookie只能说明你和服务器建立连接了,不代表登录成功
大约 2 年之前 回复
u013456370
指尖de柔情 如果解决这个问题?
大约 2 年之前 回复
u013456370
指尖de柔情 现在问题是,我通过代码得到的cookie值,不能登录进去;而先通过浏览器登录之后,拷贝cookie值到代码中,就能登录进去,;
大约 2 年之前 回复

邮箱:992544491@qq.com 跪求大神!

看看你浏览器发送的cookie数据跟你程序发送的是否一致,有没有地方没处理对

u013456370
指尖de柔情 大神,可以加我qq,帮我解决一下吗? QQ:992544491 王久印
大约 2 年之前 回复
u013456370
指尖de柔情 用代码运行,可以得到cookie,再把cookie传入就不能访问了,跳转到登录页面
大约 2 年之前 回复
u013456370
指尖de柔情 现在不知道哪个地方出问题了, 我从浏览器上得到cookie,拷贝过来,代码运行,可以得到结果;
大约 2 年之前 回复

你在爬哪个网站,把网址发给我,我看一下

u013456370
指尖de柔情 现在我都是先在浏览器上登录该网站,取得对应的cookie值,拷贝到代码里面,在运行代码,感觉这样不太灵活!
大约 2 年之前 回复
u013456370
指尖de柔情 一个是内网,一个是外网,有用户名和密码没用的,必须插个优盘
大约 2 年之前 回复

是不是因为你访问太过频繁,被列入黑名单勒

u013456370
指尖de柔情 貌似没有吧
大约 2 年之前 回复

你多用几个浏览器对比一下和你自己程序发送的是否一致。

你得认真检查验证接口地址对了没有,接口验证需要的信息都提交了没有,如有些网站防止crsf会加上token值,你得将token值附带上,要不验证不用过你得到的sessionid没用。你得判断提交导数据到验证接口后返回的内容是否已经是验证通过的,如location跳转验证通过的页面或者是输出错误信息什么的,sessionid的cookie值是访问动态页就会自动生成的,但是服务器的session验证信息并没有生成

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
java的jsoup的登录问题
在第一个网页中有一个登录按钮,点了按钮以后网页地址不会变,但是会有不同的数据出现。 针对这种情况,怎么用jsoup实现获取点击登录按钮以后的HTML元素呢?
关于Jsoup网络爬虫遇到的问题
我用这个语句 Elements element = doc.getElementsByClass("recommend_list"); 取不到数据 但是用 Elements element = doc.getElementsByClass("bang_nav"); 却能取到数据,这是为什么 截图如下 ![图片说明](https://img-ask.csdn.net/upload/201710/24/1508836957_18031.png)
JAVA 后台如何去触发界面的一个按钮的submit
最近项目需要用到爬虫,使用的Jsoup,但是对应的数据是根据查询得到的,JAVA中如何触发获取呢。
关于JSOUP通过URL解析HTML问题
Document dom = Jsoup.connect( "https://peoplefinder.glb.itcs.hpecorp.net/PeopleFinder/PeopleFinder.aspx?pf_hp=1&pf_detectsearch=1&pf_searchoption=0&pf_searchtype=2&x=0&y=0&pf_searchval=" + name ) .get(); 执行这句的时候会报错: Invoke Windows Program Error.: javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target 求解答
关于jsoup的问题,大神们来显神通啊
最近几天再捣鼓一个问题,关于jsoup的选择器 再多个div标签中,标识一致的数据应该怎么获取,实在是捣鼓不出来,希望大神指点 以下附上需要抓取的html。 /** <div class="essayBox"> <div class="dbTitle">中国学术期刊网络出版总库<b class="titleTotle"> 共<span name="pcount" id="pc_CJFQ">5</span>条 </b></div> <ul class="&#xA; ebBd&#xA; "> <li class=""><em>[1]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=QUIT201605018&amp;dbcode=CJFQ&amp;dbname=CJFDTEMP&amp;v=">包容型领导对员工创新行为的影响</a>[J]. 梁祺,苏涛永.&nbsp&nbsp<a onclick="&#xA; getKns55NaviLink('','CJFQ','CJFQbaseinfo','QUIT');&#xA; ">企业经济</a>. <a onclick="&#xA; getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','QUIT','2016','05')&#xA; ">2016(05) </a></li> <li class="&#xA; double&#xA; "><em>[2]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=KJGL201602020&amp;dbcode=CJFQ&amp;dbname=CJFDTEMP&amp;v=">包容性领导能促进科研人员提升创新绩效吗?——一个有中介的调节作用模型</a>[J]. 朱晓妹,孔令卫,郝龙飞,陈驰茵.&nbsp&nbsp<a onclick="&#xA; getKns55NaviLink('','CJFQ','CJFQbaseinfo','KJGL');&#xA; ">科技管理研究</a>. <a onclick="&#xA; getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','KJGL','2016','02')&#xA; ">2016(02) </a></li> <li class=""><em>[3]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=KYGL201507013&amp;dbcode=CJFQ&amp;dbname=CJFDTEMP&amp;v=">华人企业的家长式领导对创新行为的作用路径研究</a>[J]. 王双龙.&nbsp&nbsp<a onclick="&#xA; getKns55NaviLink('','CJFQ','CJFQbaseinfo','KYGL');&#xA; ">科研管理</a>. <a onclick="&#xA; getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','KYGL','2015','07')&#xA; ">2015(07) </a></li> <li class="&#xA; double&#xA; "><em>[4]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=YJYF201503008&amp;dbcode=CJFQ&amp;dbname=CJFDTEMP&amp;v=">领导包容对员工创造行为的影响机理研究——基于心理安全视角的分析</a>[J]. 冯永春,周光.&nbsp&nbsp<a onclick="&#xA; getKns55NaviLink('','CJFQ','CJFQbaseinfo','YJYF');&#xA; ">研究与发展管理</a>. <a onclick="&#xA; getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','YJYF','2015','03')&#xA; ">2015(03) </a></li> <li class=""><em>[5]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=LKGP201001005&amp;dbcode=CJFQ&amp;dbname=CJFD2010&amp;v=">组织创新氛围对员工创新行为的影响:创新自我效能感的中介作用</a>[J]. 顾远东,彭纪生.&nbsp&nbsp<a onclick="&#xA; getKns55NaviLink('','CJFQ','CJFQbaseinfo','LKGP');&#xA; ">南开管理评论</a>. <a onclick="&#xA; getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','LKGP','2010','01')&#xA; ">2010(01) </a></li> </ul> </div> <div class="essayBox"> <div class="dbTitle">中国优秀硕士学位论文全文数据库<b class="titleTotle"> 共<span name="pcount" id="pc_CMFD">2</span>条 </b></div> <ul class="&#xA; ebBd&#xA; "> <li class=""><em>[1]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=1012508537.nh&amp;dbcode=CMFD&amp;dbname=CMFD2013&amp;v=">组织创新氛围与员工创新行为的关系研究</a>[D]. 李娟.<a onclick="&#xA; getKns55UnitNaviLink('','CMFD','GXNCU');&#xA; ">西南财经大学</a> 2012</li> <li class="&#xA; double&#xA; "><em>[2]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=2010115209.nh&amp;dbcode=CMFD&amp;dbname=CMFD2010&amp;v=">员工目标取向与创新绩效:组织信任的调节作用研究</a>[D]. 王晓丽.<a onclick="&#xA; getKns55UnitNaviLink('','CMFD','GJLIN');&#xA; ">吉林大学</a> 2010</li> </ul> </div> <div class="essayBox"> <div class="dbTitle">国际期刊数据库<b class="titleTotle"> 共<span name="pcount" id="pc_SSJD">2</span>条 </b></div> <ul class="&#xA; ebBd&#xA; "> <li class=""><em>[1]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=SJWD15091600000340&amp;dbcode=SSJD&#xA; ">Create an inclusive environment for LGBTQA students</a>[J] . Sarah Christensen.&nbsp&nbspDisability Compliance for Higher Education . 2015 (3) </li> <li class="&#xA; double&#xA; "><em>[2]</em><a target="kcmstarget" href="/kcms/detail/detail.aspx?filename=SJEM00000079793&amp;dbcode=SSJD&#xA; ">Toward a multi-dimensional measure of individual innovative behavior</a>[J] . Robert F. Kleysen,Christopher T. Street.&nbsp&nbspJournal of Intellectual Capital . 2001 (3) </li> </ul> </div> <div class="essayBox"> <div class="dbTitle">外文题录数据库<b class="titleTotle"> 共<span name="pcount" id="pc_CRLDENG">4</span>条 </b></div> <ul class="&#xA; ebBd&#xA; "> <li class=""><em> [1] </em><a onclick="&#xA; OpenCRLDENG('Determinants of innovative behavior: A path model of individual innovation in the workplace');&#xA; ">Determinants of innovative behavior: A path model of individual innovation in the workplace</a>. Scott SG,Bruce RA. The Academy of Management Journal . 1994</li> <li class="&#xA; double&#xA; "><em> [2] </em><a onclick="&#xA; OpenCRLDENG('Making it safe:The effects of leader inclusiveness and professional status on psychological safety and improvement efforts in health care teams');&#xA; ">Making it safe:The effects of leader inclusiveness and professional status on psychological safety and improvement efforts in health care teams</a>. Nembhard I M,Edmondson A C. Journal of Organ Dysfunction . 2006</li> <li class=""><em> [3] </em><a onclick="&#xA; OpenCRLDENG('WHEN JOB DISSATISFACTION LEADS TO CREATIVITY: ENCOURAGING THE EXPRESSION OF VOICE');&#xA; ">WHEN JOB DISSATISFACTION LEADS TO CREATIVITY: ENCOURAGING THE EXPRESSION OF VOICE</a>. J Zhou,J M George. The Academy of Management Journal . 2001</li> <li class="&#xA; double&#xA; "><em> [4] </em><a onclick="&#xA; OpenCRLDENG('The benefits of climate for inclusion for gender-diverse groups');&#xA; ">The benefits of climate for inclusion for gender-diverse groups</a>. Nishii L H. The Academy of Management Journal . 2013</li> </ul> </div> **/ 希望把<li>里面的数据每一个单独抓出来,求大神显神通
JAVA的jsoup删除元素结点的问题
是个奇怪的问题,revision是个arraylist数组<Element>类型,然后我在这个循环语句中: for (int k=i+1; k<=j; k++){ //revision.get(k).remove(); //System.out.println(revision.get(k)); } 如果是System.out.println(revision.get(k));的话,是能够得到我想要的每个Element元素结点的所有信息。 然而如果执行revision.get(k).remove();的话 就会在这一行报这样的错: Exception in thread "main" java.lang.IllegalArgumentException: Object must not be null 不是很明白是怎么回事,我处理另一个相同结构的xml文件都是没有问题的。
关于Jsoup爬取数据,有没有大神教一下~
这段时间朋友偶然提起爬虫,我就想试试,然后用了Jsoup进行爬取,过了入门,我就在想,怎么用Jsoup爬取一个网站最近一周发布的链接呢。 我的问题总结就是:怎么用Jsoup根据时间和文章标题关键字进行筛选爬取。
Jsoup如何抓取需要登录才能显示的html页面?
Connection.Response res = Jsoup.connect("http://www.example.com/login.php") .data("username", "myUsername", "password", "myPassword") .method(Method.POST) .execute(); Document doc = res.parse(); //这儿的SESSIONID需要根据要登录的目标网站设置的session Cookie名字而定 String sessionId = res.cookie("SESSIONID"); 在上面的代码成功登录后,就可以利用登录的cookie来保持会话,抓取网页内容了 Document objectDoc = Jsoup.connect("http://www.example.com/otherPage") .cookie("SESSIONID", sessionId) .get(); 上面的一段代码是在网上找到的,但今天刚接触Jsoup,不知道怎么获取目标网页的SESSIONID,求助
httpClient和jsoup的问题
刚学httpClient和jsoup 小白一个, 拿一个网站做联系, 取验证码的时候难住我了,请教大神们 代码如下 ``` response = httpClient.execute(httpPost); String responseHtml = EntityUtils.toString(response.getEntity()); Document document = Jsoup.parse(responseHtml); System.out.println(document); Elements tokenImg = document.getElementsByClass("linktips"); System.out.println(tokenImg+"=====tokenImg"); ``` 这个解析返回的是 <img id="form2_tokenImg" name="_tokenImg" width="61" height="32" onclick="reloadTokenImg(this.id);" alt="点击刷新"> <script language="JavaScript"> window.document.getElementById("form2_tokenImg").src="GenTokenImg.do"+"?random="+Math.random(); 然而用浏览器看的是 执行完方法的 是这样子的 <img id="form2_tokenImg" name="_tokenImg" width="61" height="32" onclick="reloadTokenImg(this.id);" alt="点击刷新" src="GenTokenImg.do?random=0.3358001798852335"> 怎么才能取到GenTokenImg.do?random=0.3358001798852335这种的值
jsoup模拟登录时即使用户名错误也能获得返回值
jsoup模拟登录时即使用户名错误也能获得返回值,而且获得的总是相同的返回值,求解一下,是应用在安卓上的。
JSoup模拟登录成功后,请求相关页面出现权限不够问题
之前使用JSoup,带上账号、密码、验证码和cookie是可以请求任何页面的,但是这两天学校做了教务处系统升级维护后,一带上这个cookie请求一些有个人相关信息的页面就跳出要你重新登录的界面出来或者是直接显示你的权限不够,这可怎么办? (我的cookie是在登录前使用“Connection.Response rs=Jsoup.connect(url).execute();”这样的方式得来的,然后在登录时带上它,不知道是不是因为这个问题)
求助jsoup取页面之后输出的问题
取出的表格数据为空,请问这是string body的问题么... 如果要解决问题应该怎样修改... ``` import java.io.ByteArrayOutputStream; import java.io.InputStream; import java.net.HttpURLConnection; import java.net.URL; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Main { public static void main(String[] args) throws Throwable { for (int i = 1; i <= 3; i++) { System.out.println(getPrice(i)); } } static List<String> getPrice(int pageNo) throws Throwable { Document doc = Jsoup.parse(getText(pageNo)); Elements trs = doc.select("#ctl00_cphMainFrame_Table1 tr"); List<String> result = new ArrayList<String>(trs.size()); for (int i = 1, l = trs.size(); i < l; i++) { Element tr = trs.get(i); result.add(tr.child(5).text()); } return result; } static String getText(int pageNo) throws Throwable { URL url = new URL("http://www.lnprice.gov.cn/wjjc/jgjc/ReportByDateOfPivot.aspx?PriceBureauMainType_Id=101&YM=201502&DP=28"); HttpURLConnection conn = (HttpURLConnection) url.openConnection(); conn.setRequestMethod("POST"); conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko"); conn.setDoOutput(true); conn.connect(); String body = "ctl00%24cphMainFrame%24ScriptManager1=ctl00%24cphMainFrame%24UpdatePanel1%7Cctl00%24cphMainFrame%24aspnetpager1&ctl00%24cphMainFrame%24ddlYear=2015&ctl00%24cphMainFrame%24ddlMonth=02&ctl00%24cphMainFrame%24ddlTimePoint=28&__EVENTTARGET=ctl00%24cphMainFrame%24aspnetpager1&__LASTFOCUS=&__VIEWSTATE=%2FwEPDwULLTEwNTcyNDc4NjkPZBYCZg9kFgICAQ9kFgQCAQ8WAh4LXyFJdGVtQ291bnQCCxYWZg9kFgJmDxUCAzEwMQzlhpzlia%2Fkuqflk4FkAgEPZBYCZg8VAgMxMDcP5bel5Lia5raI6LS55ZOBZAICD2QWAmYPFQIDMTA4EuW3peS4mueUn%2BS6p%2Bi1hOaWmWQCAw9kFgJmDxUCAzEwORjln47luILlsYXmsJHmnI3liqHku7fmoLxkAgQPZBYCZg8VAgMxMTAY5Yac5p2R5bGF5rCR5pyN5Yqh5Lu35qC8ZAIFD2QWAmYPFQIDMTExDOa2ieWGnOS6p%2BWTgWQCBg9kFgJmDxUCAzEwMhwyMDEz5bm05Lul5YmN5bel5Lia5raI6LS55ZOBZAIHD2QWAmYPFQIDMTAzHzIwMTPlubTku6XliY3lt6XkuJrnlJ%2FkuqfotYTmlplkAggPZBYCZg8VAgMxMDQZMjAxM%2BW5tOS7peWJjeacjeWKoeS7t%2BagvGQCCQ9kFgJmDxUCAzEwNR8yMDEz5bm05Lul5YmN5Yac5Lia55Sf5Lqn6LWE5paZZAIKD2QWAmYPFQIDMTA2GTIwMTPlubTku6XliY3mtonlhpzkuqflk4FkAgMPZBYQAgEPDxYCHgRUZXh0BQzlhpzlia%2Fkuqflk4FkZAIDDw8WBB8BBVw8c3BhbiBzdHlsZT0ibWFyZ2luLWxlZnQ6MjBweDsiICBjbGFzcz0ibXNqZ19jaGF4dW5feHhrMV9iZzAwIiA%2B5oyJ5YiG57G75YWo55yB5p%2Bl6K%2BiPC9zcGFuPh4LTmF2aWdhdGVVcmwFM1JlcG9ydEJ5RGF0ZU9mUGl2b3QuYXNweD9QcmljZUJ1cmVhdU1haW5UeXBlX0lkPTEwMWRkAgQPDxYEHwEFQTxzcGFuIGNsYXNzPSJtc2pnX2NoYXh1bl94eGsxX2JnMTEiID7mjInllYblk4HliIbluILmn6Xor6I8L3NwYW4%2BHwIFNVJlcG9ydEdvb2RzSW5mb0J5Q2l0eS5hc3B4P1ByaWNlQnVyZWF1TWFpblR5cGVfSWQ9MTAxZGQCBQ8PFgQfAQVCPHNwYW4gY2xhc3M9Im1zamdfY2hheHVuX3h4azFfYmcxMSIgPuaMieaXtumXtOWIhuW4guafpeivoiA8L3NwYW4%2BHwIFMFJlcG9ydEluZm9ieVRpbWUuYXNweD9QcmljZUJ1cmVhdU1haW5UeXBlX0lkPTEwMWRkAgcPEA8WBh4NRGF0YVRleHRGaWVsZAUKQ3JlYXRlWWVhch4ORGF0YVZhbHVlRmllbGQFCkNyZWF0ZVllYXIeC18hRGF0YUJvdW5kZ2QQFRAEMjAwMAQyMDAxBDIwMDIEMjAwMwQyMDA0BDIwMDUEMjAwNgQyMDA3BDIwMDgEMjAwOQQyMDEwBDIwMTEEMjAxMgQyMDEzBDIwMTQEMjAxNRUQBDIwMDAEMjAwMQQyMDAyBDIwMDMEMjAwNAQyMDA1BDIwMDYEMjAwNwQyMDA4BDIwMDkEMjAxMAQyMDExBDIwMTIEMjAxMwQyMDE0BDIwMTUUKwMQZ2dnZ2dnZ2dnZ2dnZ2dnZxYBAg9kAgkPEGRkFgECAWQCCw8QDxYCHwVnZBAVBAnor7fpgInmi6kCMDUCMTUCMjUVBAEwAjI4AjI5AjMwFCsDBGdnZ2dkZAIPDxYCHgdWaXNpYmxlZxYCZg9kFgJmD2QWAgIDD2QWAmYPZBYCAgMPFgIfBmcWAmYPZBYCZg9kFgICAQ8PFgYeCFBhZ2VTaXplAhQeEEN1cnJlbnRQYWdlSW5kZXgCAh4LUmVjb3JkY291bnQCL2RkZM%2FO1WQW50DLN7G3eiSyS6q2rewQ&__EVENTVALIDATION=%2FwEWJAKb97l9ArjilMkFApDM2c4FApDMreUCApDMsZgLApDMhT8CkMzp0wgCkMz99gECkMzBrQ4CkMzVwAYCkMz5KQKQzM3MCAL79f%2FVDwL79cOIBAL79devDQL79bvCBQL79Y%2F5AgL79ZOcCwLWm967DgLG9LjWAgLG9LzWAgLG9IDWAgLG9ITWAgLG9IjWAgLG9IzWAgLG9JDWAgLG9NTVAgLG9NjVAgLZ9LTWAgLZ9LjWAgLZ9LzWAgLSx8%2BzDgLMx%2B%2BzDgLMx%2BOzDgLPx4%2BwDgLy%2BZrvCEFw0vATX2wSsTwyj9sMOqdXBRc0&__ASYNCPOST=true&__EVENTARGUMENT=" + pageNo; conn.getOutputStream().write(body.getBytes()); byte[] buff = new byte[4096]; int count; ByteArrayOutputStream out = new ByteArrayOutputStream(4096); InputStream in = conn.getInputStream(); while((count = in.read(buff)) != -1) { out.write(buff, 0, count); } conn.disconnect(); return out.toString("UTF-8"); } } ```
jsoup解析网页时“www”变成“m”的问题
Document doc = Jsoup.connect(website).get(); 其中 website="http://www.huxiu.com/photo". 这个网址可以打开。 但是解析后报这样的错: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, **URL=http://m.huxiu.com/photo** at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:446) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153) at com.coship.crawler.crawler.parser.huxiu.HuxiuHomeProcessor.processor(HuxiuHomeProcessor.java:38) at com.coship.crawler.crawler.work.FetchWorker.startDealJob(FetchWorker.java:76) at com.coship.crawler.crawler.work.FetchWorker.run(FetchWorker.java:37) at java.lang.Thread.run(Thread.java:662) 问题来了:明明是“http://www.huxiu.com/photo”,怎么就变成了“http://m.huxiu.com/photo”了呢?
Android studio中用jsoup抓取网络数据作为textview文本内容失败
直接运行java程序已爬取成功,如下图,但放在activity内就没有结果,textview中的内容一直为空,无法访问网站并获取到内容。 ![图片说明](https://img-ask.csdn.net/upload/201802/22/1519307874_676635.png) 已添加网络访问允许 ``` <uses-permission android:name="android.permission.INTERNET" /> ``` 和jsoup的jar包 ``` compile 'org.jsoup:jsoup:1.9.2' ``` activity内的代码如下: ``` 稍等,程序修改中(我把UI修改放进子线程了,网络访问没放进去,还在改) ``` 本人安卓新手一枚,求各位大神教导,不胜感激。
JSOUP 怎么获取网站内容?求助!
在爬一个金融类网站的数据的时候发现jousp获取的html里面居然有个div是空的 ![图片说明](https://img-ask.csdn.net/upload/201909/09/1568025443_67849.png) 然而在chrome的后台看,我需要的数据都在这个div里,求大神解释这是什么情况! ![图片说明](https://img-ask.csdn.net/upload/201909/09/1568025668_179342.png) CSDN上的这个帖子https://bbs.csdn.net/topics/392361731 的问题是一样的,但是看了底下的回答实在是太模糊了,没有提出解决方法 附上源码: import java.io.IOException; import java.util.Map; import org.jsoup.*; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; class Main { private String loginURL = private String WebURL = private Map<String, String> loginCookies = null; private static Document document = null; public static void main(String[] args) { Main This = new Main(); try { This.bypassLogin(); This.getDocument(); }catch (IOException e){ System.out.println(e); } if(document!=null) { System.out.println("Document accessed!"); System.out.println(document.toString()); This.getContent(); }else{ System.out.println("Document not accessed!"); } System.out.println("Program Ended"); } private void getContent(){ Element content = document.select("span.stock-yellow").first(); System.out.println(content.toString()); } private void getDocument() throws IOException{ if (loginCookies!=null){ document = Jsoup.connect(WebURL) .cookies(loginCookies) .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6") .referrer("www.google.com") //.ignoreHttpErrors(true) .maxBodySize(0) .get(); }else{ System.out.println("Login Cookies is NULL"); } } private void bypassLogin() throws IOException { Connection webConnection = Jsoup.connect(loginURL); webConnection.header("Accept", "*/*").header("Accept-encoding", "gzip,deflate,br"); webConnection.header("Accept-language", "en,zh-CN,q=0.9,zh;q=0.8").header("Connection", "keep-alive"); webConnection.header("Content-length", "526").header("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8"); webConnection.header("DNT", "1").header("HOST", "www.12345fund.com"); webConnection.header("Origin", "/*马赛克*/").header("Referer", "www.google.com"); webConnection.header("User-Agent", "ozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"); webConnection.header("X-Requested-With", "XMLHttpRequest"); webConnection.data("account_name", "/*马赛克*/") .data("autologin", "1") .data("terminal_id", "/*马赛克*/") .data("is_phone", "false") .data("browser", "Chrome") .data("browser_code", "Mozilla") .data("browser_name", "Netscape") .data("browser_version", "5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36") .data("browser_hardware_platform", "Win32") .data("browser_user_agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36") .data("passwordmd5", "/*马赛克*/"); Connection.Response res = webConnection.ignoreContentType(true).method(Connection.Method.POST).execute(); loginCookies = res.cookies(); } }
关于Jsoup如何爬网页中的留言和回复
小弟刚刚开始学java,领导让我爬百度新闻的网站。现在基本上都弄好了,就是网页回复这个地方因为在源码中没有,小弟又不懂前端,希望各位大神能多多指教。 源码如下: ``` <!--comment start--> <div class="comments"> <div class="cmtlist"></div> <div class="load_more"> <a class="loadLine nocmt" href="javascript:;"><span class="ico"></span><span class="txt">还没有人评论过,赶快抢沙发吧!</span></a> </div> </div> <!--模态弹窗--> <div class="comment-success" ></div> <div class="comment-fail" ></div> <!--end--> ```
jsoup 抓取数据如何解决 IP封锁
jsoup 抓取 数据 如何 解决 爬取 网站 的 IP封锁
用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决
用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000);
关于使用jsoup抓取网页数据问题
主管让我使用jsoup,在谷歌上输入关键字,然后抓取搜索结果的标题,网址,描述。这些都成功了, 可是后面他又说要加上限制条件,限制为所有中文网页,过去一个月内的结果。后来百度了一下,加上了&tbs=qdr:m&lr=lang_zh-CN%7Clang_zh-TW这一串地址,也可以限制,但是他又说需要时间。就是如果你加上时间限制,它的搜索结果的前面会有时间,如图![图片说明](https://img-ask.csdn.net/upload/201609/27/1474958294_93097.png)
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
redis分布式锁,面试官请随便问,我都会
文章有点长并且绕,先来个图片缓冲下! 前言 现在的业务场景越来越复杂,使用的架构也就越来越复杂,分布式、高并发已经是业务要求的常态。像腾讯系的不少服务,还有CDN优化、异地多备份等处理。 说到分布式,就必然涉及到分布式锁的概念,如何保证不同机器不同线程的分布式锁同步呢? 实现要点 互斥性,同一时刻,智能有一个客户端持有锁。 防止死锁发生,如果持有锁的客户端崩溃没有主动释放锁,也要保证锁可以正常释...
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
Python 编程开发 实用经验和技巧
Python是一门很灵活的语言,也有很多实用的方法,有时候实现一个功能可以用多种方法实现,我这里总结了一些常用的方法和技巧,包括小数保留指定位小数、判断变量的数据类型、类方法@classmethod、制表符中文对齐、遍历字典、datetime.timedelta的使用等,会持续更新......
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
Java世界最常用的工具类库
Apache Commons Apache Commons有很多子项目 Google Guava 参考博客
相关热词 c# 引用mysql c#动态加载非托管dll c# 两个表数据同步 c# 返回浮点json c# imap 链接状态 c# 漂亮字 c# 上取整 除法 c#substring c#中延时关闭 c#线段拖拉
立即提问