各位好,我想爬取网页上的数据用作绘图,但是现在只能将网页代码下载下来不知道该怎么提取?用JAVA写的。希望可以知道如何从网站上爬取数据,并保存为xml
的格式。在此谢谢
JAVA网页数据爬取,保存为xml
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- 晓呆同学 2015-11-20 08:07关注
你可以了解一下JSOUP,用这个进行网页抓取和数据提取比较简单的,能提取各种元素和对应的数据。
你百度一下,内容很多的。发个小例子:/** * 抓取url网址页面链接上满足后边正则的url链接 */ public static Set<String> getHrefList(String url, String regular){ Set<String> urlSet = new HashSet<String>(); Document doc = null; try { doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get(); Elements links = doc.getElementsByTag("a"); String linkHref = ""; // String linkText = ""; // Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$"); Pattern pattern = Pattern.compile(regular); Matcher matcher = null; for (Element link : links) { linkHref = link.attr("href"); // linkText = link.text(); matcher = pattern.matcher(linkHref); if(matcher.find()){ urlSet.add(linkHref); } } } catch (IOException e) { e.printStackTrace(); } return urlSet; }
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 矩阵加法的规则是两个矩阵中对应位置的数的绝对值进行加和
- ¥15 活动选择题。最多可以参加几个项目?
- ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型
- ¥15 vs2019中数据导出问题
- ¥20 云服务Linux系统TCP-MSS值修改?
- ¥20 关于#单片机#的问题:项目:使用模拟iic与ov2640通讯环境:F407问题:读取的ID号总是0xff,自己调了调发现在读从机数据时,SDA线上并未有信号变化(语言-c语言)
- ¥20 怎么在stm32门禁成品上增加查询记录功能
- ¥15 Source insight编写代码后使用CCS5.2版本import之后,代码跳到注释行里面
- ¥50 NT4.0系统 STOP:0X0000007B
- ¥15 想问一下stata17中这段代码哪里有问题呀