2 zenghonghao zenghonghao 于 2016.02.17 00:21 提问

htmlparser抓取url的时候,含有中文字符抛出异常

我明确的看了网站的编码是gb2312,并且有设置
parser.setEncoding("gb2312");
但是最后抛出这个异常
Exception in thread "main" java.lang.IllegalArgumentException
原因是我的url里面含有中文,不知道该怎么结局诶

3个回答

Mr_dsw
Mr_dsw   Ds   Rxr 2016.02.17 08:40

这个可能是htmlparser的弊端吧!还有好几种比较不错的解析html,比如Jsoup工具也不错

Royal_lr
Royal_lr   Ds   Rxr 2016.02.17 10:39

编码之后,,在抓取啊

zenghonghao
zenghonghao 可是已经编码了啊
2 年多之前 回复
qq_25093755
qq_25093755   2016.02.17 10:51

可以试下把URL地址改为gb2312,看是否是setEncoding是否设置成功,如果不行的话,考虑换个工具

zenghonghao
zenghonghao 请问要怎么设置url的编码?
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
1、相关资料 官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html 其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。 2、相关知识 (1)通过
用HTMLParser提取URL页面超链接的一段代码
转载自:http://topstar.blog.51cto.com/693408/140866
HTMLPARSER 爬取 html网页 获取标题 关键字 内容 url
package com.bonc.pure.util; import java.awt.List; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.sql.Blob;
利用htmlparser爬虫获取指定完整的完整区域信息
package com.hundsun.pc; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher;
一般网页信息抓取(Java htmlparser)
大家好!这个暑假参加了 花旗银行 举办的一个软件设计比赛,惭愧,小菜鸟一个。不过也学到了不少东西,辛苦所得,特此来和大家分享。各位大牛勿喷,给点鼓励 一般网页信息抓取   --Java篇 举例:  http://forex.hexun.com/rmbhl/  这是和讯外汇网,比如现在我想要抓取 网页中段 人名币牌价部分的数据,来显示到我们的javawidget上,如图  htmlp
使用HTMLParser解析器爬取网页内容
python htmlparser 爬虫
使用HTMLParser提取新闻的例子
设置网络代理分析网站首页的新闻列表,内容为【<div class=\"hotjd\">】所有网页新闻地址的HTML内容。返回NodeList提取标题连接标签,获取标题。检查数据数库是否已存在该新闻,不存在就提取标题相应内容保存,跳出循环节点。已存在,就提取下一个连接标签通过标题标签提取相应的内容 去除新闻中href包含cheshi.com的标签 downloadImages方法下载内容中的
url中含有中文字符
url中含有中文字符AFnetWoring中会报错 解决1:编译一下不行
彻底解决 HtmlParser 乱码问题! 总结
彻底解决HtmlParser 乱码以及 HtmlParser org.htmlparser.util.EncodingChangeException
爬虫实战:基于 HtmlParser 实现网页链接的提取
通过 HtmlParser 过滤器实现网页链接的过滤与提取