如何改

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Catenate {
public static void main(String[] args) throws Exception {
String url = "http://www.bradfordexchange.com/";
extracLinks(url);
}

// 获取一个网页上所有的链接和图片链接
@SuppressWarnings("serial")
public static void extracLinks(String url) {
    try {
        Parser parser = new Parser(url);
        parser.setEncoding("utf-8");
        // 过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接
        NodeFilter frameFilter = new NodeFilter() {
            public boolean accept(Node node) {
                if (node.getText().contains("category")
                 || node.getText().contains("mcategory")
                //|| node.getText().startsWith("frame src=")
                // || node.getText().startsWith("img src=")
                ) {
                    return true;
                } else {
                    return false;
                }
            }
        };
        // OrFilter 来设置过滤 <a> 标签,<img> 标签和 <frame> 标签,三个标签是 or 的关系
        OrFilter linkFilter = new OrFilter(new NodeClassFilter(
                LinkTag.class), frameFilter);
        // 得到所有经过过滤的标签
        NodeList list = parser.extractAllNodesThatMatch(linkFilter);
        for (int i = 0; i < list.size(); i++) {
            Node tag = list.elementAt(i);
            if (tag instanceof LinkTag)// <a> 标签
            {
                LinkTag link = (LinkTag) tag;
                String linkUrl = link.getLink();// url
                String text = link.getLinkText();// 链接文字
                System.out.println(linkUrl + "********" + text);
            } else if (tag instanceof ImageTag)// <img> 标签
            {
                ImageTag image = (ImageTag) list.elementAt(i);
                System.out.print(image.getImageURL() + "********");// 图片地址
                System.out.println(image.getText());// 图片文字
            } else// <frame> 标签
            {
                // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>
                String frame = tag.getText();
                int start = frame.indexOf("src=");
                frame = frame.substring(start);
                int end = frame.indexOf(" ");
                if (end == -1)
                    end = frame.indexOf(">");
                frame = frame.substring(5, end - 1);
                System.out.println(frame);
            }
        }
    } catch (ParserException e) {
        e.printStackTrace();
    }
}

}

有运行结果就是最后报空指针异常

14个回答

[code="java"]
import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.ImageTag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class Catenate {   
    public static void main(String[] args) throws Exception {   
        String url = "http://www.bradfordexchange.com/";   
        extracLinks(url);   
    }   

    // 获取一个网页上所有的链接和图片链接   
    @SuppressWarnings("serial")   
    public static void extracLinks(String url) {   
        try {   
            Parser parser = new Parser(url);   
            parser.setEncoding("utf-8");   
            // 过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接   
            NodeFilter frameFilter = new NodeFilter() {   
                public boolean accept(Node node) {   
                    if (node.getText().contains("category")   
                            || node.getText().contains("mcategory")   
                            //|| node.getText().startsWith("frame src=")   
                            // || node.getText().startsWith("img src=")   
                    ) {   
                        return true;   
                    } else {   
                        return false;   
                    }   
                }   
            };   
            // OrFilter 来设置过滤 <a> 标签,<img> 标签和 <frame> 标签,三个标签是 or 的关系   
            OrFilter linkFilter = new OrFilter(new NodeClassFilter(   
                    LinkTag.class), frameFilter);   
            // 得到所有经过过滤的标签   
            NodeList list = parser.extractAllNodesThatMatch(linkFilter);   
            for (int i = 0; i < list.size(); i++) {   
                Node tag = list.elementAt(i);   
                if (tag instanceof LinkTag)// <a> 标签   
                {   
                    LinkTag link = (LinkTag) tag;   
                    String linkUrl = link.getLink();// url   
                    String text = link.getLinkText();// 链接文字   
                    System.out.println(linkUrl + "********" + text);   
                } else if (tag instanceof ImageTag)// <img> 标签   
                {   
                    ImageTag image = (ImageTag) list.elementAt(i);   
                    System.out.print(image.getImageURL() + "********");// 图片地址   
                    System.out.println(image.getText());// 图片文字   
                } else// <frame> 标签   
                {   
                    // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>   
                    String frame = tag.getText();   
                    int start = frame.indexOf("src=");   
                    if (start >= 0) {  
                        frame = frame.substring(start);   
                        int end = frame.indexOf(" ");   
                        if (end == -1)   
                            end = frame.indexOf(">");   
                        frame = frame.substring(5, end - 1);   
                        System.out.println(frame);  
                    }  
                }   
            }   
        } catch (ParserException e) {   
            e.printStackTrace();   
        }   
    }   

}   

[/code]

能把你用到的Jar包通过附件传一下么

[quote]有运行结果就是最后报空指针异常[/quote]
空指针是最容易改的bug了,只要查一下第几行代码就知道哪儿空了,自己多检查下就知道了。
还有代码不能用code标签包一下么……这样看着多累啊……

[quote]可以加你qq吗[/quote]

我现在上班时间上不了QQ啊。。。。。
你还是把htmlparser的Jar包传一下把,Jar包,不要打成ZIP包

我怎么没报异常???

你哪行报啊?

[quote]else// 标签
{ [/quote]

这个。。其它情况都是frame标签么?如果页面上还有其它东西怎么办?

那你就再判断下是不是FrameTag咯

[code="java"]import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.FrameTag;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Catenate {
public static void main(String[] args) throws Exception {
String url = "http://www.bradfordexchange.com/";
extracLinks(url);
}

// 获取一个网页上所有的链接和图片链接
@SuppressWarnings("serial")
public static void extracLinks(String url) {
    try {
        Parser parser = new Parser(url);
        parser.setEncoding("utf-8");
        // 过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接
        NodeFilter frameFilter = new NodeFilter() {
            public boolean accept(Node node) {
                if (node.getText().contains("category")
                        || node.getText().contains("mcategory")
                        //|| node.getText().startsWith("frame src=")
                        // || node.getText().startsWith("img src=")
                ) {
                    return true;
                } else {
                    return false;
                }
            }
        };
        // OrFilter 来设置过滤 <a> 标签,<img> 标签和 <frame> 标签,三个标签是 or 的关系
        OrFilter linkFilter = new OrFilter(new NodeClassFilter(
                LinkTag.class), frameFilter);
        // 得到所有经过过滤的标签
        NodeList list = parser.extractAllNodesThatMatch(linkFilter);
        for (int i = 0; i < list.size(); i++) {
            Node tag = list.elementAt(i);
            if (tag instanceof LinkTag)// <a> 标签
            {
                LinkTag link = (LinkTag) tag;
                String linkUrl = link.getLink();// url
                String text = link.getLinkText();// 链接文字
                System.out.println(linkUrl + "********" + text);
            } else if (tag instanceof ImageTag)// <img> 标签
            {
                ImageTag image = (ImageTag) list.elementAt(i);
                System.out.print(image.getImageURL() + "********");// 图片地址
                System.out.println(image.getText());// 图片文字

// ******* 2011-05-16 redstarofsleep modify start *******
} else if (tag instanceof FrameTag) {// 标签
// 提取 frame 里 src 属性的链接如
String frame = tag.getText();
int start = frame.indexOf("src=");
frame = frame.substring(start);
int end = frame.indexOf(" ");
if (end == -1)
end = frame.indexOf(">");
frame = frame.substring(5, end - 1);
System.out.println(frame);
}
// else// 标签
// {
// // 提取 frame 里 src 属性的链接如
// String frame = tag.getText();
// int start = frame.indexOf("src=");
// frame = frame.substring(start);
// int end = frame.indexOf(" ");
// if (end == -1)
// end = frame.indexOf(">");
// frame = frame.substring(5, end - 1);
// System.out.println(frame);
// }
// ******* 2011-05-16 redstarofsleep modify end *******
}
} catch (ParserException e) {
e.printStackTrace();
}
}

}
[/code]

这个就可以

你注释里写的就是// 标签

// 提取 frame 里 src 属性的链接如
我拿的就是frame啊。。。

不明白你到底是要拿什么。。。。。。。。

改成这样么?

[code="java"]
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Catenate {
public static void main(String[] args) throws Exception {
String url = "http://www.bradfordexchange.com/";
extracLinks(url);
}

// 获取一个网页上所有的链接和图片链接 
@SuppressWarnings("serial") 
public static void extracLinks(String url) { 
    try { 
        Parser parser = new Parser(url); 
        parser.setEncoding("utf-8"); 
        // 过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接 
        NodeFilter frameFilter = new NodeFilter() { 
            public boolean accept(Node node) { 
                if (node.getText().contains("category") 
                        || node.getText().contains("mcategory") 
                        //|| node.getText().startsWith("frame src=") 
                        // || node.getText().startsWith("img src=") 
                ) { 
                    return true; 
                } else { 
                    return false; 
                } 
            } 
        }; 
        // OrFilter 来设置过滤 <a> 标签,<img> 标签和 <frame> 标签,三个标签是 or 的关系 
        OrFilter linkFilter = new OrFilter(new NodeClassFilter( 
                LinkTag.class), frameFilter); 
        // 得到所有经过过滤的标签 
        NodeList list = parser.extractAllNodesThatMatch(linkFilter); 
        for (int i = 0; i < list.size(); i++) { 
            Node tag = list.elementAt(i); 
            if (tag instanceof LinkTag)// <a> 标签 
            { 
                LinkTag link = (LinkTag) tag; 
                String linkUrl = link.getLink();// url 
                String text = link.getLinkText();// 链接文字 
                System.out.println(linkUrl + "********" + text); 
            } else if (tag instanceof ImageTag)// <img> 标签 
            { 
                ImageTag image = (ImageTag) list.elementAt(i); 
                System.out.print(image.getImageURL() + "********");// 图片地址 
                System.out.println(image.getText());// 图片文字 
            } else// <frame> 标签 
            { 
                // 提取 frame 里 src 属性的链接如 <frame src="test.html"/> 
                String frame = tag.getText(); 
                int start = frame.indexOf("src="); 
                if (start >= 0) {
                    frame = frame.substring(start); 
                    int end = frame.indexOf(" "); 
                    if (end == -1) 
                        end = frame.indexOf(">"); 
                    frame = frame.substring(5, end - 1); 
                    System.out.println(frame);
                }
            } 
        } 
    } catch (ParserException e) { 
        e.printStackTrace(); 
    } 
} 

}
[/code]

我就是不知道你要获取什么东西?你要获取的页面是什么样子的。。。。。。

共14条数据 1 尾页
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何修改exe文件的修改日期呢?
-
征程手游,如何修改所有文字为外文,需要修改程序吗?
-
当TomCat启动后能不能更改Spring的数据库连接,如何改
-
SIFT算法如何修改阈值
-
开发商名字可以修改 项目在上传时如何修改开发商的名字?已经上传的如何修改名字?
-
android webkit 把所有灰色字体都改为黑色,如何修改呢?
-
checkedcomboboxedit 中selectALL 如何改为中文
-
如何修改wince 6.0 NK的启动地址
-
勤哲EXCEL2017登录界面如何修改
-
android studio 如何修改packname
-
MySQL5.7如何修改端口号
-
maven 如何修改tomcat的默认端口
-
mongo数据均衡,如何修改chunksize,修改Thresholds阈值?
-
操作系统内部是如何修改密码的
-
如何修改模拟器内核,小白求组
-
Openstack 使用API创建用户时如何指定密码,如何修改密码
-
如何修改网页的内容?如何保障网站的安全性?
-
C#分区怎样隐藏,怎样修改分区表
-
大神们,怎样修改led闪烁频率
-
状态栏文字颜色如何修改
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
知乎上 40 个有趣回复,很精辟很提神
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 |佚名来源 |网络整理,版权归原作者所有,侵删。1交朋友的标准是什么?- Ques...
武汉为什么进不了互联网第一梯队?
作者 |盛佳莹、张帆 本文经授权转自猎云网(ID:ilieyun) 从2011年以前双创在武汉萌芽,到现在力争互联网第四极,看武汉的互联网企业如何成长。 艰难中萌芽 2011年高考前夕,付小龙坐在宿舍里用人生第一台智能手机听广播,电台里正在讲述姚欣休学创业做出了用户量逾4亿的视频平台PPTV。 夜深人静时,仿佛有什么东西击中了付小龙的内心,“像姚欣一样‘开公司,...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
别再翻了,面试二叉树看这 11 个就够了~
写在前边 数据结构与算法: 不知道你有没有这种困惑,虽然刷了很多算法题,当我去面试的时候,面试官让你手写一个算法,可能你对此算法很熟悉,知道实现思路,但是总是不知道该在什么地方写,而且很多边界条件想不全面,一紧张,代码写的乱七八糟。如果遇到没有做过的算法题,思路也不知道从何寻找。面试吃了亏之后,我就慢慢的做出总结,开始分类的把数据结构所有的题型和解题思路每周刷题做出的系统性总结写在了 Github...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
用Python分析2000款避孕套,得出这些有趣的结论
到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是: 第一篇:Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。 第二篇:淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。 第三篇:Python爬取淘宝商品避孕套,教大家如何爬取淘宝pc端商品信息。 今天,我们来看看淘宝系列的第四篇 我们在上一篇的时候已经将淘宝数据爬取下来了,...
IPv6 带来的反欺诈难题,程序员该如何破解?
作者 |威胁猎人 本文转载自威胁猎人(ID:ThreatHunter) IP是互联网最基础的身份标识,也是黑灰产业发展不可或缺的底层资源支撑。如果说IPv4是一颗星球,那IPv6就是一整个宇宙,它的地址空间接近无限。本文将揭露目前黑灰产对IPv6资源的利用情况,并剖析在IPv4向IPv6升级的过程中,业务场景下的安全将面临的挑战。 黑灰产采用IPv6发起攻击的趋势不可逆转...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
面试官:兄弟,说说基本类型和包装类型的区别吧
Java 的每个基本类型都对应了一个包装类型,比如说 int 的包装类型为 Integer,double 的包装类型为 Double。基本类型和包装类型的区别主要有以下 4 点。
C语言这么厉害,它自身又是用什么语言写的?
这是来自我的星球的一个提问:“C语言本身用什么语言写的?”换个角度来问,其实是:C语言在运行之前,得编译才行,那C语言的编译器从哪里来? 用什么语言来写的?如果是用C语...
面试官,不要再问我三次握手和四次挥手
三次握手和四次挥手是各个公司常见的考点,也具有一定的水平区分度,也被一些面试官作为热身题。很多小伙伴说这个问题刚开始回答的挺好,但是后面越回答越冒冷汗,最后就歇菜了。 见过比较典型的面试场景是这样的: 面试官:请介绍下三次握手 求职者:第一次握手就是客户端给服务器端发送一个报文,第二次就是服务器收到报文之后,会应答一个报文给客户端,第三次握手就是客户端收到报文后再给服务器发送一个报文,三次握手就...
一些实用的GitHub项目
最近整理了一些在GitHub上比较热门的开源项目关于GitHub,快速了解请戳这里其中涵盖了:学习教程,面试总结,实用工具,框架,机器学习等东西比较杂,要学的东西也比较多...
八大排序(C语言)
void BubbleSort();//冒泡 void SelectSort();//选择 void InsertSort();//直接插入 void ShellSort();//希尔 void HeapSort();//堆排 void QuickSort();//快排 void MegerSort();//归并 void RadixSort();//基数(桶排序) 冒泡: 1)...
为什么说 Web 开发永远不会退出历史舞台?
早在 PC 崛起之际,Web 从蹒跚学步一路走到了主导市场的地位,但是随着移动互联网时代的来临,业界曾有不少人猜测,“Web 应该被杀死,App 才是未来”。不过时间是检...
动画:用动画给面试官解释 TCP 三次握手过程
作者 | 小鹿 来源 | 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对于一个初学者来说。 学习导图 一、TCP 是什么? TCP(Transmissio...
相关热词 c# mysql插入 c# sha256 加密 c#窗体上的叉添加事件 c#打印图片文件 c#後台調前台js c#控制台美化 c# 标记 浮点型 c#获取当前的农历日期 c# 构造函数重载 c# 页面功能注释