HTMLParser中有的网页能解析，有的则不能解析

今天写了一段小程序，结果在有的网页上能够解析，有的网页上不能解析，不能解析时，出错在下方的第二行
TagNameFilter tablefilter=new TagNameFilter("div");
NodeList nodelist = parser.extractAllNodesThatMatch(tablefilter);

错误提示是：
Exception in thread "main" org.htmlparser.util.ParserException: problem reading a character at position 36130;
java.io.EOFException
at java.util.zip.GZIPInputStream.readUByte(Unknown Source)
at java.util.zip.GZIPInputStream.readUShort(Unknown Source)
at java.util.zip.GZIPInputStream.readUInt(Unknown Source)
at java.util.zip.GZIPInputStream.readTrailer(Unknown Source)
at java.util.zip.GZIPInputStream.read(Unknown Source)
at org.htmlparser.lexer.Stream.fill(Stream.java:177)
at org.htmlparser.lexer.Stream.read(Stream.java:266)
at java.io.InputStream.read(Unknown Source)
at sun.nio.cs.StreamDecoder.readBytes(Unknown Source)
at sun.nio.cs.StreamDecoder.implRead(Unknown Source)
at sun.nio.cs.StreamDecoder.read(Unknown Source)
at java.io.InputStreamReader.read(Unknown Source)
at org.htmlparser.lexer.InputStreamSource.fill(InputStreamSource.java:345)
at org.htmlparser.lexer.InputStreamSource.read(InputStreamSource.java:395)
at org.htmlparser.lexer.Page.getCharacter(Page.java:704)
at org.htmlparser.lexer.Lexer.parseString(Lexer.java:737)
at org.htmlparser.lexer.Lexer.nextNode(Lexer.java:400)
at org.htmlparser.lexer.Lexer.nextNode(Lexer.java:317)
at org.htmlparser.util.IteratorImpl.nextNode(IteratorImpl.java:77)
at org.htmlparser.Parser.parse(Parser.java:700)
at Get_houqu.getInfor(Get_houqu.java:54)
at Get_houqu.getsite(Get_houqu.java:28)
at Get_houqu.main(Get_houqu.java:60)

这种问题怎么解决啊，我是个新手，不是很明白网上的一些讲解，感觉写的不明白怎么修改，有没有知道怎么修改的大神啊，望指点一二，谢谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-05-13 05:33
关注
http://www.cnblogs.com/coding-hundredOfYears/archive/2012/12/15/2819217.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求助，python 解析爬取的网页源码中的json部分
2016-03-11 08:31

回答 2 已采纳 sum: 其实方法一直就在那，只是自己懒，怕麻烦不去尝试。。。。上面知道是json又不敢确定的时候，只用了json.load(html.text)尝试，提示没有json object就一直再乱搜
HtmlParser怎么解析Iframe
2011-11-21 08:10

回答 2 已采纳 [code="java"]import org.htmlparser.tags.CompositeTag; public class StrongTag extends Compos
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
在Android应用中使用HTMLParser便捷的解析html内容
2021-03-02 08:13

一般的做法有三种：1.WebAPP：利用HTML5技术，例如JQuerymobile、DojoXmobile，在服务器端对网页进行移动优化。2.HybridAPP：利用HTML5技术，以及phonegap等框架生成APP，可以通过phonegap直接调用手机操作系统的API...
解析php中的html页面 php
2011-04-06 09:16

回答 2 已采纳 Run it through tidy before trying to load it into a DOM tree, http://php.net/manual/en/book.tidy.p
如何用htmlparser修改html中标签的内容
2008-11-06 12:21

回答 5 已采纳楼上的代码是正解，可以解决这个问题，但是返回的结果如果span元素还有parent元素的话就不正确了，当然前提是不知道要解析的html代码是什么样的，所以应该这样做： public String p
爬取静态网页，部分内容缺失，<div pathmatch = >这一块全部消失了 html python 有问必答
2021-10-21 17:00

回答 1 已采纳题主是用requests获取网页内容？requests只能获取源代码，ajax动态生成的需要找到接口，requests请求接口获取数据。如果不是ajax动态生成，源代码里面又找不到，那么数据可能是放在
Python HTMLParser模块解析html获取url实例
2020-09-22 06:33

主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下
關於htmlparser和httpclinet爬蟲問題
2011-11-17 20:13

回答 6 已采纳可能有些网页编码太差，你的java解析不了爬虫应该对这类情况进行处理一下，以免出现一些问题，比如网页里没有外链，或者死循环吧，比如httpclient获取不到html页面也有可能，比如别GFW屏蔽
python爬虫，爬取百度百科python词条页面数据，是这个页面url的抓取不到还是其他原因？ python 爬虫
2017-12-07 09:21

回答 6 已采纳 def get_new_url(self): return len(self.new_urls) != 0 def has_new_url(self): new_url =
求救py爬虫Xpath 子节点返回为空 python 有问必答
2021-07-02 15:30

回答 1 已采纳你用requests请求的，响应内容不能看开发者的elements标签的，你要看network的doc，如图最简单解决方法是用selenium打开网页，然后获取网页内容再获取数据如果对你有帮助，
Python中使用HTMLParser解析html实例
2020-09-22 10:04

主要介绍了Python中使用HTMLParser解析html实例,本文直接给出使用示例,并总结出HTMLParser含有的方法分为两类,一类是需要显式调用的,而另一类不需显示调用,需要的朋友可以参考下
jupyter notebook求解如下。 python
2023-04-03 07:23

回答 9 已采纳引用chatGPT作答，以下是完整的代码和解答： 1.根据文本text内容创建test.html文件我们可以使用Python的文件操作功能创建一个名为test.html的文件，并将HTML代码写入其中
Python HTML解析模块HTMLParser用法分析【爬虫工具】
2020-09-19 11:34

主要介绍了Python HTML解析模块HTMLParser用法,结合实例形式分析了HTMLParser模块功能、常用函数及作为爬虫工具相关使用技巧,需要的朋友可以参考下
htmlparser2：原谅HTML和XML解析器
2021-02-03 15:40

htmlparser2 快速而宽容HTML / XML解析器。安装 npm install htmlparser2 提供htmlparser2的实时演示。生态系统名称描述快速且宽容HTML / XML解析器 htmlparser2的处理程序，可将文档转换为DOM 使用...
在Python中使用HTMLParser解析HTML的教程
2021-01-20 05:11

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码： from HTMLParser import HTMLParser from ...
HTMLParser:JavaScript HTML 解析器
2021-06-11 18:32

HTML解析器John Resig 的更新版本 -这是基于 Erik Arvidsson 的 toDOM()已删除，不需要this上下文更正了 WScript throw Error()为 WScript 工作toXMLString可以传入tag() , attr() makeMap也会制作大写版本用法 var ...
html网页解析代码,htmlparser解析网页内容代码
2021-06-27 07:58

老少女王烦烦的博客 /*抽取html网页文本，循环到值节点并判断是否有src链接*/public void htmlText(String url) throws Exception{try {URL u = new URL(url);if(...}//生成一个解析器对象，用网页的 url 作为参...
java htmlparser 解析_JAVA htmlParser解析
2021-03-16 12:42

weixin_39806288的博客 import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.nodes.TextNode; import org.htmlparser.util.NodeList; public class ParseTest { public static HashMap OmitMap = new HashMap(); ...
Python 网页解析HTMLParse的实例详解
2020-09-21 05:28

主要介绍了Python 网页解析HTMLParse的实例详解的相关资料,python里提供了一个简单的解析模块HTMLParser类，使用起来也是比较简单的，解析语法没有用到XPath类似的简洁模式,需要的朋友可以参考下
没有解决我的问题, 去提问

悬赏问题

¥15 网络设备配置与管理这个该怎么弄
¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器

HTMLParser中有的网页能解析，有的则不能解析

1条回答 默认 最新

悬赏问题

1条回答默认最新