关于java的jsoup爬取数据问题 5C

本人想做一个java爬取美团网的爬虫,但是其中通过class来获取对应element元素时获取不到是什么原因,如图图片说明
这个是美图网通过浏览器查看里面的dom
图片说明
这是控制台打印的。
求大佬帮忙解答问题。

0

3个回答

0
hh55551
hh55551 试过了不行呀,我现在怀疑没加载出来的那块,是不是通过js动态加载产生的原因
7 个月之前 回复
    可以把select换成getElementsByClass,修改如下
    Document document = Jsoup.connect("https://ask.csdn.net/questions?type=reward").get();
    System.out.println(document.getElementsByClass("questions_detail_con").size());
0

在网页处,右键查看源码。这是大部分工具(httpcliet等)所能获取的所有信息了。
js动态加载的,可以试试能不能找到后台的查询url,自己构造参数访问。

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
java使用jsoup,多线程批量爬取天极网某分类下的美女图片
本例子只作为测试,页面个数直接设置了100个,可以可能会少或者多,容易报错,更优化的一种方式是获取“下一页”按钮的地址,然后再访问,当访问不到“下一页”的内容时跳出 多线程只体现在文件提取,也可以在elements循环中再加一个多线程访问页面的 本案例需要jsoup包的支持,可到下方url下载 jsoup jar包 Test.java==============>主方法 packag
jsoup 分页抓取网页数据Java HTML Parser
ExampleFetch the Wikipedia homepage, parse it to a DOM, and select the headlines from the In the news section into a list of Elements (online sample):Document doc = Jsoup.connect("http://en.wikipedia.
Jsoup爬取全国行政区域信息并入库
1 数据来源 中华人民共和国国家统计局点击打开链接 2Jsoup解析 //Jsoup.parse()似乎获取不了数据 Document document = Jsoup.connect("http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201703/t20170310_1471429.html").post(); //在浏览器
使用Jsoup爬取网站信息(以天猫为例)
天太晚了,先传个项目,明天再讲解,http://download.csdn.net/detail/lostchris/9432552
java Jsoup 爬取网页数据
建议先去看看API文档。 先上一段代码,然后在慢慢分析。 public class Test { public static void main(String args[]) throws Exception { Document doc = Jsoup.connect("http://www.cjmsa.gov.cn/9/368/2/39/62/").get();// 解析该
jsoup实现网络爬虫
基于jsoup实现的java爬虫,爬取豆瓣电影数据基于jsoup实现的java爬虫,爬取豆瓣电影数据
利用Jsoup爬取网页内容
jsoup的强大之处在这里就不多说,最近在写项目,需要爬取网页上的内容,自然想到的是利用Jsoup来处理,项目中是利用Jsoup爬取学校信息门户的新闻消息,然后放进客户端 网页的html代码如下8月30日,日照市常务副市长王斌一行人来我校进行调研。校长戚万学,副校长康淑敏、杨冰等热情接待了王斌一行。校区管理办公室、学生工作办公室等相关负责人参加了座谈。王斌表示,曲阜师范大学有深厚的文化与学术底蕴
基于JSoup的网络爬虫爬取小说内容
网上的一些小说是可以直接看的,不需要登陆与购买,现在我们需要做的就是把这些小说的内容下载到本地。首先,准备工作: 下载JSoup的jar包,并且创建一个新的工程。 接下来在浏览器上找到需要下载的小说: 这是有正文的界面,然后复制链接,作为爬取的初始链接 代码如下:/** * 获取链接的document对象 * @param url * @return d
jsoup 爬取数据(一)
本人因需要大量数据,今天第一天接触爬虫,使用江湖传说java下的jquery之称的jsoup,确实很方便易上手,也是目前比较流行的技术,对初学者来说非常easy,下面我也会继续写n篇记录自己的学习成长曲线,后续会出分页爬取与图片爬取,以及添加数据库的blog. 可以看到文章列表都在class=”list”下,list_title下的结构如下,爬取link_title下href元素与html内...
使用Jsoup模拟登陆并爬取网站
Map<String, String> map = new HashMap<>(); Document document = Jsoup.connect(url).data(map).post(); Elements elements = document.getElementsByTag("b"); for (Element...
Jsoup爬取网页上表格数据
首先,先下载jsoup的jar包,这个自己去网上搜一下吧,好多的,然后导入到程序中,方便使用。 下来,先得到你要获取的网页的内容,Document doc = Jsoup.connect(url).timeout(5000).get(); 这里面的url就是你要爬取的网址,timeout(5000)设置了你爬取网页的最大时间,超出时间后就不再尝试了,一般网站不用设置的,只需要Documen
java jsoup应用爬取数据存储数据库及日志开关
爬虫的应用爬取数据和存储数据库加下载图片以及日志的优化和日志存储的位置
[Java爬虫] 使用 Jsoup+HttpClient 爬取网站基本信息
一、前言 说起爬虫,很多人第一反应是使用 Python 语言。但是 Java 爬虫方面也是相当成熟的,使用 Jsoup、HttpClient、HtmlUnit 就可以实现基本的需求。 【爬虫商业应用】 ①爬虫还是一个可以盈利的技术,很多网站的收集的内容的重要来源就是使用爬虫技术。 ②内容丰富后,可以大大提高个人网站的日流量,通过帮Google等打广告获取资金。 ③收集各...
jsoup爬虫技术及爬取微博数据实例
  最近实现了一个爬取微博数据的小程序,借此对爬虫技术 jsoup的使用,以及实际开发过程中的细节进行总结。    jsoup的jar包下载地址:https://jsoup.org/download   首先,对于网络爬虫的理解,它是一种能够自动下载网页、解析网页的程序。网络中的信息分散在数以亿计的网页中,而这些网页中的数据存储于数以百万计的服务器中。现实中的用户只需通过在浏览器中访问超链接便...
jsoup爬取表格中的内容
import java.io.IOException; import java.util.Date; import java.util.List; import java.lang.*; import java.text.SimpleDateFormat;import org.apache.http.client.methods.CloseableHttpResponse; import org.a
Java使用Jsoup包批量爬取智联招聘上招聘信息
    Jsoup是一个Java的解析器,可以快速解析HTML地址,获取HTML文本内容,操作简单,爬取数据的能力强大。在此,就分享一个通过Jsoup,在线爬取智联招聘上招聘信息然后保存到本地的 Java程序,程序遍历多个多个城市的多个工作岗位,可自行修改城市名和岗位名。import java.io.File; import java.io.FileNotFoundException; impo...
使用Jsoup去国家统计局官网爬取省市县三级json数据
多线程、Jsoup去国家统计局官网爬取全国省市县三级json数据
Jsoup 网络爬虫(动态ip代理,突破ip访问次数限制) 爬取全国各省市区数据
Jsoup实现省市区的爬取,突破ip的访问限制,实现动态ip代理,爬取最新的省市区信息
Jsoup爬取国家统计局的数据
使用JSOUP爬取国家统计局的数据,包含省市区,镇、村级的数据可选。
Java使用Jsoup爬虫递归抓取所有链接数据,以及对于jsoup自动转义的处理
引文: 抓取一个网站上的全部链接 首先感谢这篇文章,我从中了解到如何通过HttpURLConnection类爬取网站的数据。不过既然有Jsoup这样现成的爬虫开发包,我将用其重新实现链接中对于所有链接的递归数据抓取。 演示代码(附备注) import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.no...
Java爬虫——jsoup爬取知乎内容并写入文件
引言:利用闲暇时间写了一个小爬虫,巩固Jsoup技术 注:此篇文章仅供学习使用 由于知乎的内容都是比较精彩和权威,网上很多文章也都是关于爬取知乎内容的,所以笔者也写了一个简单的小爬虫来获取知乎的内容 1.找到需要爬取的页面 2.分析页面数据 3. 找到上诉图片中返回值的请求信息 ...
jsoup爬取分页的内容
网站显示内容基本上都是通过分页来显示,我们用jsoup简单爬取页面仅能获取本页的内容,对于其他页面的内容该如何爬取?其实很简单,就是通过检查下一页的链接地址,基本上下一页的超链接地址都是有规律的,基本上都是*****/1或者*****/2等等,所以我们可以按照这个规律,循环访问页面,抓取信息即可;当然,通过选择器直接将下一页的url获取出来也可以,不过我觉得直接分析还是比较简单。上代码: p...
Java爬虫项目(一)利用Jsoup爬虫爬取天猫商品信息
前言  这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了。 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法。 对于没有反爬技术的网站,爬取商品信息最简单。我测试了京东、淘宝、天猫这些大型购物网站,发现只有天猫商城是没有做任何反爬处理的,所以就从最简单的爬取天猫商品信息开始写。 思路方法 1、对于没有反爬技术的网站思路最...
JSOUP 抓取HTTPS/HTTP网页,校验问题
      近日本人正在做一个小型的网络爬虫项目,用的就是经过分析,最终选择了jsoup来做页面分析工具,爬取数据。针对一般的http请求是不需要的校验的。但是https安全校验过总过不去。最后找到以下方法,终于成功。             让我们的站点信任所有站点,不需要引包,系统自带ssl证书校验,话不多数,贴代码。       /** * 信任任何站点,实现https页面的正常访问 ...
java使用jsoup按指定元素位置爬取网页信息
 导入需要的jar包:jsoup-1.6.1.jar,github地址链接:https://github.com/zhangliqingyun/jarlist/blob/master/jsoup/jsoup-1.6.1.jar 根据需要爬取的网页链接得到连接的文档对象:         TestJsoup t = new TestJsoup();            Document doc...
jsoup实现爬取一个完整的网站,并保存到本地
用jsoup实现爬取一个完整的网站,包含网站里的所有链接内容,会另存为html到本地,js和css文件也会保存到本地,可以直接在本地打开查看一个完整的网站。 eclipse项目,可以直接导入修改。 提供一个链接和保存爬取后的网页保存位置即可。
java+jsoup抓取网页数据
使用java+jsoup进行网页数据的抓取,提取自己想要的数据
java jsoup 爬虫爬asp.net网站遇到_doPostBack不能获取翻页数据解决办法
最近由于业务需求写了一个爬虫,但是由于asp.net中的翻页数据都是用_doPostBack表单提交的,只能获取到第一页的数据,几经周折找到了如下的解决办法: //要扒取的网页的地址 String url = "http://nmgs.china12366.org/Search.aspx?type=3&text=%E6%97%B6%E9%97%B4"; ...
使用java jsoup抓取页面中的数据
介绍 使用jsoup来进行解析。 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 jsoup提供的中文文档 业务需求 抓取页面中的答案。如图: demo展示 //方法入口 public static void main(Strin
Jsoup爬取360电影网上的信息
跟我上一篇写的博客差不多,就不在多说了,直接贴上java代码了 package com.xiedong.Jsoup; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document;
简单多线程爬虫+Jsoup分析
使用简单多线程和Jsoup分析,得到CSDN的首页的所有子网页连接。 运行效果如下图 ------------------------------------------------------------------------------------------------------ ---------------------------------------
使用JSOUP爬取国家统计局的地理位置数据
最近因工作需要,我需要爬取国家统计局的最新统计数据。因此参照网上的例子使用JSOUP爬取了国家统计局的省、市、县、镇、村的数据。因为要爬取的数据较多,因此在里面使用了多线程的相关技术。下面首先讲解下多线程相关的东西。 首先理解下什么是线程池? 因为创建和销毁线程是一件非常耗费时间的工作,因此,如果线程可以再一定程度上复用,那么肯定可以再节省不少的时间。线...
jsoup简单爬取代理ip
# jsoup简单爬取代理ip 1. 简单看看jsoup[入门教程](http://www.open-open.com/jsoup/) 2. 新建一个springboot项目 3. maven引入依赖                      org.jsoup             jsoup             1.10.2          4. 寻找
Java爬虫实践:Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻
0x0 背景 最近学习爬虫,分析了几种主流的爬虫框架,决定使用最原始的两大框架进行练手: Jsoup&HttpUnit 其中jsoup可以获取静态页面,并解析页面标签,最主要的是,可以采用类似于jquery的语法获取想要的标签元素,例如: //1.获取url地址的网页html html = Jsoup.connect(url).get(); // 2.jsoup获取新闻<...
【JAVA爬虫】利用JSOUP简单爬取猫眼电影榜单
第一次用JAVA进行爬虫,参考了很多大佬的博客,然后自己觉得JSOUP比较好理解,就用JSOUP解析搞了个小项目 后续将会再此项目中继续加入翻页爬取、连接数据库、存入数据库等功能,到时再更新。 目录 Db 存放连接数据库的代码(暂时还没开始弄,等后续再更新) Main 程序执行的入口 Model 存放数据的属性的代码 Parse 存放解析网页的代码 Util 存放各种工具类代码 Crawler...
java爬虫(Jsoup)爬取某新闻站点标题
需要一个包:jsoup-1.7.3.jar 有一定的java和js基础 package wang.test; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select....
Java爬虫--利用HttpClient和Jsoup爬取博客数据并存入数据库
由于今日头条等头条类产品的出现,以今日头条为代表所使用的爬虫技术正在逐渐火热,在爬虫领域具有良好性能和较好效果的Python在最近一年的时间里逐渐火热起来,同时因为Python良好的数据分析和机器学习的能力,Python的应用越来越广泛。不过,今天我们要提到的是基于java 的简单爬虫,为使用java作为开发语言的人做一个参考。爬虫实现 HttpClient 是 Apache Jakarta C
jsoup爬取某宝购物车数据返回json串,放入eclipse即可运行
完整项目!!jsoup爬取某宝购物车数据返回json串,放入eclipse即可运行
Java爬虫进阶-Jsoup+httpclient获取动态生成的数据
前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详解,但是很多时候网站为了防止数据被恶意爬取做了很多遮掩,比如说加密啊动态加载啊,这无形中给我们写的爬虫程序造成了很大的困扰,那么我们如何来突破这个梗获取我们急需的数据呢,下面我们来详细讲解一下如何获取String startPage="https://i
新闻消息的爬取-jsoup
新闻消息的爬取-jsoup       业务场景:新闻消息爬取,半自动半人工。       新闻来源几个固定网站,人工则是工作人员在网上看到一个需要的消息,直接拷贝网址,然后根据网址自动提取。       消息内容:标题,简介,网址,封面图片     采用开发插件 jsoup,感觉是最方便的简析工具,比htmlparser等好用得多。   一.Jsoup开发参考资料 1.