htmlparser抓取url的时候，含有中文字符抛出异常

我明确的看了网站的编码是gb2312，并且有设置
parser.setEncoding("gb2312");
但是最后抛出这个异常
Exception in thread "main" java.lang.IllegalArgumentException
原因是我的url里面含有中文，不知道该怎么结局诶

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Exploring1024 2016-02-17 00:40
关注
这个可能是htmlparser的弊端吧！还有好几种比较不错的解析html，比如Jsoup工具也不错

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

引用HTMLParser提示markupbase没有属性ParserBase python 后端开发语言有问必答
2022-01-21 09:01

回答 2 已采纳 import HTMLParser更换为from html.parser import HTMLParser参考：问题解决：ModuleNotFoundError: N
htmlparser提取网页内容 html5
2016-11-30 13:14

回答 2 已采纳原文字太小了，看不清 http://www.cnblogs.com/coding-hundredOfYears/archive/2012/12/15/2819217.html http://blo
python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？ python 爬虫
2017-12-07 09:21

回答 6 已采纳 def get_new_url(self): return len(self.new_urls) != 0 def has_new_url(self): new_url =
htmlparser学习总结
2014-09-02 11:56

techlgwjda的博客本文是简单的介绍htmlparser抓取的常用代码示例，具体详见：htmlparser下载包中的api文档。下面理清一下Node节点与节点之间的关系及NodeFilter的全部实现类。 Interface Node |||All Known Subinterf
关于htmlparser读取问题
2011-12-22 20:33

回答 3 已采纳或者你换个思路 TagNode应该是有getChildren()的方法获得及标签节点，tagNode.getChildren(); 还有nextNode()方法获取相邻节点你可以先获
HtmlParser怎么解析Iframe
2011-11-21 08:10

回答 2 已采纳 [code="java"]import org.htmlparser.tags.CompositeTag; public class StrongTag extends Compos
关于爬虫百度百科问题，求教各位。代码如下，运行提示错误。爬虫
2017-10-19 09:26

回答 4 已采纳你先搞个简单的试试能不能用urlopen访问百度百科，一般大的网站都做了防爬处理。
htmlparser整理
2014-03-27 21:22

一口井的博客在线API文档：...htmlparser是个优秀的网页信息抓取工具，下面理清一下Node节点与节点之间的关系及NodeFilter的全部实现类。 Interface Node |||All Known Subinterfaces: Remark（RemarkNode ）,
如何用htmlparser修改html中标签的内容
2008-11-06 12:21

回答 5 已采纳楼上的代码是正解，可以解决这个问题，但是返回的结果如果span元素还有parent元素的话就不正确了，当然前提是不知道要解析的html代码是什么样的，所以应该这样做： public String p
如何使用htmlparser获得指定id标签里的内容？
2010-02-22 18:25

回答 1 已采纳 Parser parser = new Parser(currentURL); AndFilter filter = new
關於htmlparser和httpclinet爬蟲問題
2011-11-17 20:13

回答 6 已采纳可能有些网页编码太差，你的java解析不了爬虫应该对这类情况进行处理一下，以免出现一些问题，比如网页里没有外链，或者死循环吧，比如httpclient获取不到html页面也有可能，比如别GFW屏蔽
python/itertools-contextlib-urllib-XML-HTMLParser
2020-07-18 18:00

fan__lee的博客要处理异常时，不要显示重新抛出异常，即不能重新抛出通过参数传递进来的异常，只需要将返回值设置为 False 就可以了。之后，上下文管理代码会检测是否 __exit__() 失败来处理异常 @contextmanager 编写__enter__和_...
高手帮助！ HTMLParser懂得大侠进！
2010-12-31 19:02

回答 1 已采纳 [code="java"] import org.htmlparser.Node; import org.htmlparser.Parser; import org.htmlparser.fil
网络爬虫---htmlparser
2014-06-23 17:28

wilsonke的博客中文论坛 . http://bbs.hexiao.cn/thread.php?fid=6 Constructor Summary Parser () Parser ( URLConnection connection) Construct a parser using the ...
转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)（正则表达式）
2016-09-18 21:33

后岔湾程序员的博客 android 开发--抓取网页解析网页内容的若干方法(网络爬虫)（正则表达式）标签： android开发爬虫技术xml解析html解析 2015-09-11 21:35 836人阅读评论(0) 收藏举报分类： android开发学习笔记
抓取国家统计局区划、城乡划分代码的简易python爬虫实现
2017-05-26 16:51

Levy_96的博客抓取国家统计局区划、城乡...所谓简易，一方面是因为是单线程爬虫，不涉及python的多进程、多线程编程，另一方面是因为不包括“URL管理器”的模块（负责存储已爬取、未爬取的url序列，控制爬虫不多爬、不漏爬），而是
Python爬虫技术系列-02HTML解析-xpath与lxml
2023-09-25 16:37

IT从业者张某某的博客 etree.fromstring(text, parser=None, base_url=None) 与etree.HTML()类似，但转换过程中，要求text字符串为标准的XML或HTML格式，否则会抛出异常。返回结果类型为’lxml.etree._Element’。 etree.parse(source, ...
【转载】HtmlParser的使用和 HttpClient 实现简易爬虫
2012-10-30 22:10

weixin_30852451的博客 Htmlparser中文论坛. http://bbs.hexiao.cn/thread.php?fid=6 Constructor Summary Parser () Parser ( URLConnection connection) Construct a parser using the provided ...
pynotes
2020-10-05 00:17

jxxxh的博客对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符： >>> ord('A') 65 >>> ord('中') 20013 >>> chr(66) 'B' >>> chr(25991) ...
06—小白学Python爬虫之BeautifulSoup入门与应用(以糗百为例)
2018-03-27 11:13

小洋人最happy的博客之前介绍了通过正则和xpath来解析HTML文本，本篇将会介绍一种全新的方式BeautifulSoup来解析... 抓取方式速度使用难度安装难度正则最快困难无(内置) xpath 快简单一般 BeautifulSoup ...
没有解决我的问题, 去提问

悬赏问题

¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮

htmlparser抓取url的时候，含有中文字符抛出异常

3条回答 默认 最新

悬赏问题

3条回答默认最新