各位好,我想爬取网页上的数据用作绘图,但是现在只能将网页代码下载下来不知道该怎么提取?用JAVA写的。希望可以知道如何从网站上爬取数据,并保存为xml
的格式。在此谢谢
JAVA网页数据爬取,保存为xml
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- 晓呆同学 2015-11-20 08:07关注
你可以了解一下JSOUP,用这个进行网页抓取和数据提取比较简单的,能提取各种元素和对应的数据。
你百度一下,内容很多的。发个小例子:/** * 抓取url网址页面链接上满足后边正则的url链接 */ public static Set<String> getHrefList(String url, String regular){ Set<String> urlSet = new HashSet<String>(); Document doc = null; try { doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get(); Elements links = doc.getElementsByTag("a"); String linkHref = ""; // String linkText = ""; // Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$"); Pattern pattern = Pattern.compile(regular); Matcher matcher = null; for (Element link : links) { linkHref = link.attr("href"); // linkText = link.text(); matcher = pattern.matcher(linkHref); if(matcher.find()){ urlSet.add(linkHref); } } } catch (IOException e) { e.printStackTrace(); } return urlSet; }
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥20 关于#硬件工程#的问题,请各位专家解答!
- ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
- ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
- ¥30 截图中的mathematics程序转换成matlab
- ¥15 动力学代码报错,维度不匹配
- ¥15 Power query添加列问题
- ¥50 Kubernetes&Fission&Eleasticsearch
- ¥15 報錯:Person is not mapped,如何解決?
- ¥15 c++头文件不能识别CDialog
- ¥15 Excel发现不可读取的内容