HttpURLConnection抓取页面资源问题

public class XML {

public Document getDoc(String u, String encoding) {
Document doc = null;
try {
URL url = new URL(u);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
conn.connect();
DocumentBuilder dombuilder = builderFactory.newDocumentBuilder();
InputStream in = new BufferedInputStream(conn.getInputStream());
InputStreamReader isr = new InputStreamReader(in,encoding);
InputSource inputSource = new InputSource(isr);

[color=darkred]doc = dombuilder.parse(inputSource);[/color]
} catch (Exception e) {
e.printStackTrace();
}
return doc;
}
public static void main(String[] args) {

XML x=new XML();
String u = "http://www.p5w.net/stock/hydx/bkfx/index_160.xml";
x.getDoc(u,"utf-8");
}

}
出如下异常一直无法解决高手帮下忙谢谢了
[Fatal Error] :206:35: An invalid XML character (Unicode: 0xdf2f) was found in the element content of the document.
org.xml.sax.SAXParseException: An invalid XML character (Unicode: 0xdf2f) was found in the element content of the document.
at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
at com.util.XML.getDoc(XML.java:117)（红色部分）
at com.util.XML.main(XML.java:134)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyj7454103 2010-08-17 16:27
关注
如果你确定那个XML 能正常解析的话！

[code="java"]InputStreamReader isr = new InputStreamReader(in,encoding); [/code]

其他的编码试了么？

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

url域名抓取
2019-04-07 14:52

在IT行业中，"URL域名抓取"是一种常见的网络数据挖掘技术，主要目的是从网页或互联网上批量收集和整理URL（统一资源定位符），也就是我们常说的网址。这项技术广泛应用于搜索引擎优化、数据分析、市场研究等领域。...
java抓取网页数据示例
2020-09-04 14:24

在Java中，我们可以使用`HttpURLConnection`类来实现对网页内容的抓取，它提供了连接、发送请求、接收响应等功能，方便我们获取网络资源。首先，我们需要创建一个`URL`对象，指定要访问的网页地址。例如，在这个...
java抓取页面数据_通过java抓取任何指定网页的数据
2021-02-12 11:26

伟大的凡人的博客假设你需要获取51job人才网上java人才的需求数量，首先你需要分析51job网站的搜索这一块是怎么运作的，通过解析网页的源代码，我们发现了以下... 返回的页面的编码格式为：GBK4.假设我们想获取搜索java人才时结果页...
URLConnection实现爬虫（解决重定向、设置cookie才能抓取页面等问题）
2017-02-20 14:31

大叔的味道的博客 1.关键方法 /** * 向指定 URL 发送POST方法的请求 * ... * 请求参数，请求参数应该是 name1=value1&name2=value...另附，最基本的get抓取、post抓取、获取cookie方法 public class HttpURLContent { ...
爬虫抓取页面
2013-06-06 15:08

本项目是一个专门用于“爬虫抓取页面”的程序，被打包成了JAR格式，这意味着它是用Java语言编写的。JAR（Java Archive）文件是Java平台特有的归档文件，它可以包含类文件、资源文件以及元数据，方便运行Java应用程序...
Java爬虫实战抓取一个网站上的全部链接
2020-09-01 10:27

y.cn * @param oldMap 保存已抓取和未抓取链接的Map，key为链接，value为是否已抓取 * @return 更新后的Map，包含所有已抓取和未抓取的链接 */ private Map, Boolean> crawlLinks(String oldLinkHost, Map, ...
tccrawler:抓取 topcoder.com 并下载所有问题陈述
2021-06-20 14:36

**正文** 本项目名为“tccrawler”，...总的来说，“tccrawler”项目旨在利用Java爬虫技术保存topcoder.com上的宝贵资源，这涉及到网络请求、HTML解析、数据存储等多个环节，同时也提醒我们关注抓取的伦理与法律问题。
java利用url实现网页内容的抓取
2020-08-31 03:20

Java语言提供了丰富的库来实现网页内容的抓取，其中URL（Uniform Resource Locator）类是Java标准库中的核心组件，用于处理网络资源的访问。本文将详细介绍如何利用Java的URL类来实现网页内容的抓取。首先，我们...
java抓取网站数据.pdf
2022-07-14 16:41

### Java抓取网站数据知识点详解 #### 一、概述在现代互联网开发中，爬虫技术成为了一项非常重要的技能。通过爬虫技术，开发者可以从网页中自动提取所需信息，进行数据分析、研究或是构建自己的应用服务。本篇文档...
java抓取网页内容--生成静态页面
2010-01-11 09:22

在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...
java实现WebSpider蓝蜘蛛网页抓取.zip
2024-03-17 00:03

6. **深度控制**：为了避免无限制地抓取导致资源浪费，通常会设定爬取深度限制，超过设定值则停止抓取。在"蓝蜘蛛"这个项目中，我们可以期待看到以下关键组件： 1. **URL管理器**：负责存储已访问和待访问的URL，...
网站数据html抓取代码,利用htmlparser抓取网页内容(一)
2021-06-09 03:15

蓝色麻雀的博客今天做项目时用到java抓取网页内容，本以为很简单的一件事但是还是让我蛋疼了一会，网上资料一大堆但是都是通过url抓取网页内容，但是我要的是读取本地的html页面内容的方法，网上找不到怎么办我瞬间了！抓取×××...
学习资源库网站所有下载连接
2015-01-03 23:37

【学习资源库网站所有下载连接】的项目是一个利用Java编程语言编写的爬虫程序，旨在解决因迅雷离线空间限制导致无法获取学习资源库网站上所有下载链接的问题。通过这个爬虫，用户可以轻松地获取到指定网页上的全部...
豆瓣美女图片抓取工具java版本
2015-06-04 18:11

这个工具利用了网络爬虫技术，能够高效地遍历豆瓣相关页面，查找并保存指定类型或主题的图片资源。【描述】：该Java版本的抓图工具设计目的是为了帮助用户方便快捷地收集豆瓣平台上与“美女”相关的图片。通过自动...
SpringBoot实战：高效获取视频资源
2025-02-13 23:09

阿Q说代码的博客 } // 关闭资源 inputStream.close(); fileOutputStream.close(); System.out.println("视频下载完毕，保存路径：" + outputFileName); } 运行程序开始采集数据展示一下我们的成果这样我们就借助亮数据的动态住宅...
java抓取任何指定网页的数据
2012-11-26 17:23

通过上述分析我们可以看出，Java抓取网页数据主要依赖于`java.net.HttpURLConnection`和`java.util.regex.Pattern`等类。这些工具能够帮助开发者轻松地构建网络请求，并通过正则表达式解析响应内容。此外，还需注意...
Jsoup抓取整个网站
2017-12-28 14:06

在本篇中，我们将深入探讨如何使用Jsoup来抓取整个网站，并将其保存到本地，包括CSS、JavaScript、图片以及各个页面。首先，我们需要了解Jsoup的基本用法。Jsoup通过建立一个HTTP连接到目标网站，然后解析返回的...
JAVA_采集-爬虫抓取原代码
2021-10-26 10:08

在本项目"JAVA_采集-爬虫抓取原代码"中，主要涉及到的是使用Java语言进行网络数据采集，也就是我们常说的网络爬虫技术。Java作为一种广泛应用的编程语言，其强大的面向对象特性和丰富的库资源使得它非常适合开发复杂...
Java爬虫实战教程：CSDN文章爬取与解析技巧.zip
2024-04-29 08:59

3. **发送HTTP请求**：使用Java的HttpURLConnection或者第三方库如Apache HttpClient发送GET请求，获取文章页面的HTML源码。 4. **解析HTML内容**：用Jsoup解析HTML，找到我们需要的元素。可以使用CSS选择器或者DOM...
没有解决我的问题, 去提问

HttpURLConnection抓取页面资源问题

4条回答 默认 最新

4条回答默认最新