JAVA网页数据爬取，保存为xml

各位好，我想爬取网页上的数据用作绘图，但是现在只能将网页代码下载下来不知道该怎么提取？用JAVA写的。希望可以知道如何从网站上爬取数据，并保存为xml
的格式。在此谢谢图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

晓呆同学 2015-11-20 08:07

关注

你可以了解一下JSOUP，用这个进行网页抓取和数据提取比较简单的，能提取各种元素和对应的数据。
你百度一下，内容很多的。发个小例子：

 /**
     * 抓取url网址页面链接上满足后边正则的url链接
     */
    public static Set<String> getHrefList(String url, String regular){

        Set<String> urlSet = new HashSet<String>();

        Document doc = null;
        try {
            doc = Jsoup.connect(url).userAgent("Mozilla").timeout(20000).get();

            Elements links = doc.getElementsByTag("a");

            String linkHref = "";
//          String linkText = "";

//          Pattern pattern = Pattern.compile("^http://blog\\.csdn\\.net/[^\\s]*/article/details/[0-9]+$");
            Pattern pattern = Pattern.compile(regular);
            Matcher matcher = null;

            for (Element link : links) {
                linkHref = link.attr("href");
//              linkText = link.text();

                matcher = pattern.matcher(linkHref);

                if(matcher.find()){
                    urlSet.add(linkHref);
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return urlSet;
    }

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

JAVA网页数据爬取，保存为xml java xml
2015-11-20 07:39

回答 2 已采纳你可以了解一下JSOUP，用这个进行网页抓取和数据提取比较简单的，能提取各种元素和对应的数据。你百度一下，内容很多的。发个小例子： ``` /** * 抓取url网址页面链
如何将网页保存为xml格式而不是html格式 html5 xml
2019-12-05 10:54

回答 1 已采纳 Ctrl+s 后缀改为 .XML
java访问WebService返回xml数据生成为本地文件 java xml
2018-04-02 07:50

回答 9 已采纳 /** * * @param serviceUrl 服务名 * @param nameSpace * @param methodName 执
selenium自动化测试教程——java爬取数据
2023-06-19 18:11

西凉的悲伤的博客 selenium是一个用于自动化测试 Web 应用的工具集，它可以模拟用户自动去浏览器网页上进行点击、输入、选择下拉值复选框、鼠标移动、任意 JavaScript 执行等等操作。selenium：基于浏览器的回归自动化套件和测试，你...
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
java中，怎么顺序读取xml里面的数据？ java xml
2017-06-13 09:45

回答 3 已采纳 1.xml运用 ClassLoader cl = ReadAndWrite.class.getClassLoader(); URL url = cl.getResource("U
关于安卓开发，获取string.xml的问题 android java xml
2022-03-30 11:29

回答 2 已采纳 R.string.err得到的只是Id,可以通过Context的getString方法获取真实字符串
爬虫基础之动态网页数据爬取（上）
2020-09-08 20:55

青云--的博客动态网页数据抓取什么是AJAX： AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对...
Java学习，Mybatis基于xml开发报错：Mysql查的数据是完整的，但是idea就有数据缺失 java mysql 数据库
2022-10-29 17:15

回答 2 已采纳 resultMap和你的实体没有对应上。仔细检查一下select 里面的列名和返回的实体对象，是否在resultMap里一一对应
编写Java程序将XML转化为文本 java xml
2016-11-03 13:27

回答 6 已采纳 [http://www.cnblogs.com/lingyao/p/5708929.html](http://www.cnblogs.com/lingyao/p/5708929.html "") [
java 解析xml文件遇到这种结构怎么解析 java xml
2019-08-21 10:34

回答 1 已采纳参考下：https://www.iteye.com/blog/hellsing42-115248
python爬取动态网页_python爬取动态网页数据，详解
2020-11-23 16:26

weixin_39736047的博客原理：动态网页，即用js代码实现动态加载数据，就是可以根据用户的行为，自动访问服务器请求数据，重点就是：请求数据，那么怎么用python获取这个数据了？浏览器请求数据方式：浏览器向服务器的api（例如这样的字符...
读取Excel文件里的数据加入到为XML 文件里 c# xml
2017-11-07 13:31

回答 7 已采纳可以用npoi读取 http://www.cnblogs.com/qk2014/p/5021152.html 读取后直接字符串拼接写入就行了，也可以用XmlDocument
java爬虫爬取cnvd,CNVD.py
2021-03-23 13:44

呦呦Ruming的博客 '''该模块主要处理...解析统计查询中的共享数据xml'''import osfrom queue import Queuefrom datetime import datetimeimport threadingimport requestsfrom bs4 import BeautifulSoupimport pandas ...
4.2-python爬虫之动态网页数据爬取
2021-08-23 08:53

Nosimper的博客文章目录系列文章目录前言一、什么是AJAX二、获取ajax数据的方式三、Selenium+chromedriver获取动态数据四、安装Selenium和chromedriver五、快速入门六、selenium常用操作1、关闭页面2、定位元素3、操作表单元素4、...
没有解决我的问题, 去提问

悬赏问题

¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容

码龄粉丝数原力等级 --

JAVA网页数据爬取，保存为xml

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

JAVA网页数据爬取，保存为xml

2条回答 默认 最新

悬赏问题

2条回答默认最新