2 zenghonghao zenghonghao 于 2016.02.17 00:21 提问

htmlparser抓取url的时候,含有中文字符抛出异常

我明确的看了网站的编码是gb2312,并且有设置
parser.setEncoding("gb2312");
但是最后抛出这个异常
Exception in thread "main" java.lang.IllegalArgumentException
原因是我的url里面含有中文,不知道该怎么结局诶

3个回答

Mr_dsw
Mr_dsw   Ds   Rxr 2016.02.17 08:40

这个可能是htmlparser的弊端吧!还有好几种比较不错的解析html,比如Jsoup工具也不错

Royal_lr
Royal_lr   Ds   Rxr 2016.02.17 10:39

编码之后,,在抓取啊

zenghonghao
zenghonghao 可是已经编码了啊
接近 2 年之前 回复
qq_25093755
qq_25093755   2016.02.17 10:51

可以试下把URL地址改为gb2312,看是否是setEncoding是否设置成功,如果不行的话,考虑换个工具

zenghonghao
zenghonghao 请问要怎么设置url的编码?
接近 2 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!