java网页抓取问题

在这个网站中：http://wwwapps.ups.com/WebTracking/track?HTMLVersion=5.0&loc=zh_CN&Requester=UPSHome&WBPM_lid=homepage%2Fct1.html_pnl_trk&trackNums=H8947154378&track.x=%E8%BF%BD%E8%B8%AA

　　需要抓取：页面中的运输进程的部分该运输进程查看源码为一个div层（

）点击层厚URL地址改变为：http://wwwapps.ups.com/WebTracking/detail 因为抓取的信息需要第一个链接中的H8947154378 参数所以URL改变后就不知道怎么抓取了

　　通过普通抓取只能抓取到层中的第一条数据和最后一条数据火狐和其他浏览器查看第一个页面的源码也只有div中第一条数据和最后一条
　　public String getPageContent(String strUrl, String strPostRequest,int maxLength) {

　　// 读取结果网页
　　StringBuffer buffer = new StringBuffer();
　　System.setProperty("sun.net.client.defaultConnectTimeout", "5000");
　　System.setProperty("sun.net.client.defaultReadTimeout", "5000");
　　try {
　　URL newUrl = new URL(strUrl);
　　HttpURLConnection hConnect = (HttpURLConnection) newUrl.openConnection();
　　// POST方式的额外数据
　　if (strPostRequest.length() > 0) {
　　hConnect.setDoOutput(true);
　　OutputStreamWriter out = new OutputStreamWriter(hConnect.getOutputStream());
　　out.write(strPostRequest);
　　out.flush();
　　out.close();
　　}
　　// 读取内容

　　BufferedReader rd = new BufferedReader(new InputStreamReader(hConnect.getInputStream(),"utf-8"));
　　int ch;
　　for (int length = 0; (ch = rd.read()) > -1 && (maxLength <= 0 || length < maxLength); length++)
　　buffer.append((char) ch);
　　String s = buffer.toString();
　　s.replaceAll("//&[a-zA-Z]{1,10};", "").replaceAll("<[^>]*>", "");
　　System.out.println(s);

　　rd.close();
　　hConnect.disconnect();
　　return buffer.toString().trim();
　　} catch (Exception e) {
　　return "错误:读取网页失败！";
　　//

　　}
　　}
　　public static void main(String[] args) {

　　String url = "http://wwwapps.ups.com/WebTracking/track?HTMLVersion=5.0&loc=zh_CN&Requester=UPSHome&WBPM_lid=homepage%2Fct1.html_pnl_trk&trackNums=H8947154378&track.x=%E8%BF%BD%E8%B8%AA";

　　String url2 = "http://wwwapps.ups.com/WebTracking/detail";

　　Test p = new Test();
　　p.getPageContent(url, "post", 100500);

　　Test3 p3 = new Test3();
　　p3.getPageContent(url2, "post", 100500);
　　System.out.print("已经执行！");
　　}
　　上面是我写的普通抓取办法
　　想请教大家是否有其他解决办法没有公开的API接口

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

wayne_ren 2012-06-22 11:15

关注

[color=blue][b]这里是使用HttpClient和nekohtml的完整实现，能够完整抓取出来运输进程一览：[/b][/color]

[code="java"]
public class UpsDetail {

private static final String HTML_TACK_HTML = "html/tack.html";
private static final String HTML_DETAIL_HTML = "html/detail.html";

private static String url1 = "http://wwwapps.ups.com/WebTracking/track?HTMLVersion=5.0&loc=zh_CN&Requester=UPSHome&WBPM_lid=homepage%2Fct1.html_pnl_trk&trackNums=H8947154378&track.x=%E8%BF%BD%E8%B8%AA";
private static String url2 = "http://wwwapps.ups.com/WebTracking/detail"; 

public static void main(String[] args) {

    try {

        //抓取追踪信息页面HTML
        getHtml(url1, HTML_TACK_HTML, null);

        //获取 抓取运输进程页面HTML时 需要的参数
        Map<String, String> data = getHiddenValue(HTML_TACK_HTML);

        //抓取运输进程页面HTML      
        getHtml(url2, HTML_DETAIL_HTML, data);

        //获取运输进程
        List<DetailBean> list = getDetailList(HTML_DETAIL_HTML);

        //打印详细的运输进程
        DetailBean bean = null;
        System.out.println("地点" + "\t" + "日期" + "\t" + "当地时间" + "\t" + "处理");
        for (int i = 0; i < list.size(); i++) {
            bean = list.get(i);
            System.out.println(bean.getLocation() + "\t" + bean.getDate() + "\t" + bean.getTime() + "\t" + bean.getOperation());
        }

    } catch (Exception e) {
        e.printStackTrace();
    }
}

private static List<DetailBean> getDetailList(String html) throws Exception {
    List<DetailBean> list = new ArrayList<DetailBean>();

    DOMParser parser = new DOMParser();
    parser.parse(html);
    Node node = parser.getDocument();

    Node tb = XPathAPI.selectSingleNode(node, "//TABLE[@class='dataTable']");
    NodeList tdlist = XPathAPI.selectNodeList(tb, "//TR/TD");

    int line = 0;
    while (line < tdlist.getLength() / 4) {
        DetailBean bean = new DetailBean();

        bean.setLocation(deleteSpace(tdlist.item(line * 4 + 0).getTextContent()));
        bean.setDate(deleteSpace(tdlist.item(line * 4 + 1).getTextContent()));
        bean.setTime(deleteSpace(tdlist.item(line * 4 + 2).getTextContent()));
        bean.setOperation(deleteSpace(tdlist.item(line * 4 + 3).getTextContent()));

        line++;

        list.add(bean);
    }

    return list;
}

private static Map<String, String> getHiddenValue(String html) throws Exception {       
    Map<String, String> data = new HashMap<String, String>();

    List<String> params = new ArrayList<String>();
    params.add("loc".toLowerCase());
    params.add("USER_HISTORY_LIST".toLowerCase());
    params.add("progressIsLoaded".toLowerCase());
    params.add("refresh_sii".toLowerCase());
    params.add("showSpPkgProg1".toLowerCase());
    params.add("datakey".toLowerCase());
    params.add("HIDDEN_FIELD_SESSION".toLowerCase());
    params.add("trackNums".toLowerCase());

    DOMParser parser = new DOMParser();
    parser.parse(html);
    Node node = parser.getDocument();

    NodeList nodeList = XPathAPI.selectNodeList(node, "//INPUT");
    for (int i = 0; i < nodeList.getLength(); i++) {
        Element e = (Element) nodeList.item(i);
        if ("hidden".equalsIgnoreCase(e.getAttribute("type"))
                && params.contains(e.getAttribute("name").toLowerCase())) {
            data.put(e.getAttribute("name"), e.getAttribute("value"));
        }
    }

    System.out.println("订单编号:" + data.get("trackNums"));
    return data;
}

private static void getHtml(String url, String filename, Map<String, String> data) throws Exception {

    //创建一个客户端
    DefaultHttpClient client = new DefaultHttpClient();

    HttpResponse res = null;
    if (data == null) {
        //创建一个get方法
        HttpGet get = new HttpGet(url);
        //执行请求
        res = client.execute(get);
    } else {

        client.setRedirectStrategy(new DefaultRedirectStrategy() {                
                public boolean isRedirected(HttpRequest request, HttpResponse response, HttpContext context)  {
                    boolean isRedirect = false;
                    try {
                        isRedirect = super.isRedirected(request, response, context);
                    } catch (ProtocolException e) {
                        e.printStackTrace();
                    }
                    if (!isRedirect) {
                        int responseCode = response.getStatusLine().getStatusCode();
                        if (responseCode == 301 || responseCode == 302) {
                            return true;
                        }
                    }
                    return isRedirect;
                }
            });

        //作成post参数Entity
        List<NameValuePair> formparams = new ArrayList<NameValuePair>();
        Iterator i = data.keySet().iterator();
        while(i.hasNext()) {
            String key = (String)i.next();
            formparams.add(new BasicNameValuePair(key, data.get(key)));
        }
        UrlEncodedFormEntity entity = new UrlEncodedFormEntity(formparams, "UTF-8");

        //创建一个post方法
        HttpPost post = new HttpPost(url);
        //设置post参数
        post.setEntity(entity);

        //执行请求
        res = client.execute(post);
    }

    //获取完整的StatusLine・・・「HTTP/1.1 200 OK」
    System.out.println(res.getStatusLine().toString());

    //获取返回内容
    if (res.getEntity() != null) {
        String result = EntityUtils.toString(res.getEntity());
        //System.out.println(result);           
        //生成HTML文件保存到本地（测试用可以不保存直接解析）
        createHtmlFile(filename, result);
    }

    //关闭流
    EntityUtils.consume(res.getEntity());

    //关闭连接
    client.getConnectionManager().shutdown();
}

private static void createHtmlFile(String filename, String data) throws Exception {
    File file = new File(filename);
    OutputStream os = new FileOutputStream(file);
    os.write(data.getBytes("UTF-8"));
    os.close();
}

private static String deleteSpace(String in) {
    Pattern pattern = Pattern.compile("\\s*|\t|\r|\n");
    Matcher re = pattern.matcher(in);

    return re.replaceAll("");
}

}
[/code]

其中用到的DetailBean
[code="java"]
public class DetailBean {
//地点
private String location;
//日期
private String date;
//当地时间
private String time;
//处理
private String operation;

public String getLocation() {
    return location;
}
public void setLocation(String location) {
    this.location = location;
}
public String getDate() {
    return date;
}
public void setDate(String date) {
    this.date = date;
}
public String getTime() {
    return time;
}
public void setTime(String time) {
    this.time = time;
}
public String getOperation() {
    return operation;
}
public void setOperation(String operation) {
    this.operation = operation;
}

}
[/code]

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

java网页抓取问题 java
2012-06-21 16:42

回答 4 已采纳 [color=blue][b]这里是使用HttpClient和nekohtml的完整实现，能够完整抓取出来运输进程一览：[/b][/color] [code="java"] public cl
java抓取https网页问题 https java 爬虫
2015-06-01 02:36

回答 3 已采纳总之这种问题，都不必提问，自己用fiddler对比下浏览器和你的程序的差异，就能解决了。
java网页内容抓取问题。 java
2015-06-04 04:41

回答 5 已采纳我已经解决了，送你们个网址http://www.cnblogs.com/kkun/p/3362803.html，不会的可以用下。
java简单网页抓取的实现方法
2020-09-04 00:14

主要介绍了java简单网页抓取的实现方法,详细分析了与Java网页抓取相关的tcp及URL相关概念,以及对应的类文件原理,具有一定的参考借鉴价值,需要的朋友可以参考下
java网页抓取提取网页部分信息 java
2012-07-02 14:23

回答 3 已采纳仔细查看该页面的HTML代码，你就会发现货件托运历史记录被保存在一个叫 detailInfoObject 的JavaScript对象中，所以不需要特殊的HTML解析器，使用正则即可截取到这个对象，
java网页抓取其中2个字符串 java
2012-06-27 21:13

回答 1 已采纳有空研究研究XPath,你能很轻松的取到页面上所有的信息。 [code="java"]private static void getTrackInfo(String html) throws E
如何用java抓取各大医疗网站的数据 java
2021-11-30 21:23

回答 3 已采纳短一点的JSOUP等.长一点的用框JAVA的爬虫框架WebMagic.哪几个网站.瞅一眼
java 抓取网页内容实现代码
2020-09-04 14:44

主要介绍了java 抓取网页内容实现代码,需要的朋友可以参考下
java抓取数据不清晰,师哥请帮看一下 java
2021-08-31 16:47

回答 1 已采纳不对劲，getElementsByClass是获取一个列表的class相同的值你这个只能取到那个dl标签而且结果是这样的[dl obj] 试试用xpath取//dl[@class='xxx']/dd/
如何用java抓取网页隐藏音频链接 html5 java 爬虫
2015-05-19 05:11

回答 3 已采纳搜索这个页面的data-url
java 获得视频的拍摄时间？ java
2019-11-13 11:51

回答 1 已采纳 https://blog.csdn.net/ghsau/article/details/8472486 ---------------------------- 之前看错了，以为你问图片
java抓取网页数据示例
2020-09-04 14:24

要通java获取整个网页的html内容，或者某个网络文件的内容,可以使用java提供的HttpURLConnection类来实现对网页内容的抓取
用Java抓取网页内容筛选邮箱的程序，运行无结果（没有报错） java
2017-02-09 13:10

回答 4 已采纳 ``` package com.zzk.ceshi; import java.io.BufferedReader; import java.io.FileWriter; impo
java抓取网页数据实现
2014-11-14 15:59

java抓取网页数据实现
java网页抓取数据
2014-05-11 23:41

java网页抓取数据
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算

码龄粉丝数原力等级 --

java网页抓取问题

4条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

java网页抓取问题

4条回答 默认 最新

悬赏问题

4条回答默认最新