java爬蟲新手問題Illegal character in path at index 38

写了一个简单的爬虫程序爬京东，之前是可以运行的，现在每次爬到固定的url就开始报错，附错误信息，部分代码段。
Exception in thread "main" java.lang.IllegalArgumentException: Illegal character in path at index 38: http://vip.jd.com/fuli/detail/791.html
public String getContent(CrawlerUrl url) throws Exception {

String content = null;

String urlString = url.getUrlString();

CloseableHttpClient httpclient = HttpClients.createDefault();

// 以下代码是参考httpclient官方给出的下载网页示例代码

try {

HttpGet httpget = new HttpGet(urlString);

CloseableHttpResponse response = httpclient.execute(httpget);

try {

int statusCode = response.getStatusLine().getStatusCode();

HttpEntity entity = response.getEntity();

if ((statusCode == HttpStatus.SC_OK) && (entity != null)) {

entity = new BufferedHttpEntity(entity);

StringBuilder sb = new StringBuilder();

String contentType = entity.getContentType().toString();

int charsetStart = contentType.indexOf("charset=");

if (charsetStart != -1) { // 读取字符流

String charset = contentType.substring(charsetStart + 8);

BufferedReader reader = new BufferedReader(new InputStreamReader(entity.getContent(), charset));

int c;

while ((c = reader.read()) != -1) sb.append((char) c);

reader.close();

}
else { // 先解析html文件的前几行获取字符编码,设置好编码格式,再解析html文件的全部内容

BufferedReader FiestReader = new BufferedReader(new InputStreamReader(entity.getContent()));

String charset = null;

String line = null;

int charsetStartInHtml;

while ((line = FiestReader.readLine()) != null) {

charsetStartInHtml = line.indexOf("charset=");

if (charsetStartInHtml != -1) {

Matcher charsetMatcher = charsetRegexp.matcher(line);

while (charsetMatcher.find()) charset = charsetMatcher.group(1);

break;

}

}

FiestReader.close();

BufferedReader SecondReader = new BufferedReader(new InputStreamReader(entity.getContent(), charset));

int c;

while ((c = SecondReader.read()) != -1) sb.append((char) c);

SecondReader.close();

}

content = sb.toString();

}

} finally {

response.close();

}

} finally {

httpclient.close();

}

visitedUrls.put(url.getUrlString(), url);

url.setIsVisited();

// System.out.println(content);
return content;

}

对代码有什么意见也可以提出来，谢谢大神

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
学习编程的小猫 2023-03-23 08:38
关注
之前也遇到这次问题，不过我是传入url为空，参考的博客

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【Java】Illegal character in path java
2021-05-24 14:36

回答 2 已采纳字符串中 \ 是转义字符，所以要 \\ 才行
Illegal character in query at index 85
2016-09-28 06:12

回答 2 已采纳你查询中的第85个字符是非法字符，贴出你的字符串看看。检查下你的url是不是utf8编码的，还是别的编码。
Java swing出现illegal component position报错如何解决 java
2022-12-07 17:09

回答 2 已采纳这一行 this.getLayeredPane().add(imgLabel, new Integer(Integer.MIN_VALUE));前面加上这个this.getLayeredPane().
java爬虫出现java.lang.IllegalArgumentException: Illegal character in path at index 31
2019-05-21 13:51

weixin_30457881的博客 url地址中出现了空格，使用trim()函数去除空格就好了转载于:https://www.cnblogs.com/yang-xiansen/p/10899398.html
储存txt文件时报错'gbk' codec can't encode character '\u200b' in position 164: illegal multibyte sequence python
2022-10-15 11:08

回答 2 已采纳 Py文件头加个试试 # coding=utf-8 打开文件加 file1 = open('./学术预告.txt','a',encoding='utf-8')
linux下安装spark运行代码提示java.lang.illegal出错 java linux spark
2022-01-01 00:30

回答 1 已采纳提示的很明显了，file://改为file:///
爬虫爬网站遇到编码器问题 python 爬虫
2023-01-19 16:14

回答 4 已采纳成功了，加这一句
python爬虫报错‘gbk‘ codec can‘t encode character ‘\u202c‘ in position 1: illegal multibyte sequence
2021-12-17 21:04

饭饭童鞋的博客最近在网上爬取一些自己毕业设计需要用的...def save(item, path): # path文件保存路径，item数据列表 with open(path, "w+", newline='',encoding='utf-8') as f: write = csv.writer(f) write.writerows(item) OK
关于测评时测评信息的问题：Runtime Error(SIGSEGV:Illegal memory access)是什么意思 c++ java 后端
2023-01-10 08:49

回答 1 已采纳这意味着在运行时，程序进行了不合法的内存访问。通常会引发信号 SIGSEGV，该信号表示无效的内存引用。该错误通常由以下原因引起：使用了未初始化的指针试图访问未分配的内存（例如，超出数组界限）试图
java后端调用Post请求在地址后面加参数抛异常 java
2019-01-26 14:55

回答 4 已采纳 1,把请求的URL 打印下，看一下字符 2，你的tomcat 版本是多少？tomcat高版本中URL有些特殊字符不允许，例如 { }
Idea2020.1代码提示这样的是不是有问题？ eclipse intellij-idea java java-ee
2020-04-18 23:02

回答 1 已采纳这就是idea智能的地方了，静态成员变量的访问应该是类名.变量名来访问，如果你下了alibaba提示工具就会有如下提示 "不应该通过类实例访问静态成员 com.test.Detec.i less..
JAVA爬虫三大运营商
2020-06-04 11:32

Mario丶马的博客 import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import java.net.InetAddress; import java.net.URL; import java.nio.charset.StandardCharsets; import java.text....
爬虫爬取数据出现编码问题 python 爬虫
2021-08-10 11:17

回答 1 已采纳自行解决了只需要把这个编码换成utf-8就可以了
已解决UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘ŗ‘ in position 1: illegal multibyte
2022-09-27 07:23

袁袁袁袁满的博客已解决UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u0157’ in position 1: illegal multibyte sequence 文章目录报错代码报错翻译报错原因解决方法帮忙解决报错代码粉丝群里面的一...
python3爬虫实战之小说（一）
2021-02-05 11:37

QY’UniverseSpace的博客然后我们用个replace替换掉就好 if '¥' in a: a=a.replace('¥','￥') 二、刚才报错写的是 UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa5’ in position 0: illegal multibyte sequence 我们...
爬虫代码问题总结
2019-04-21 12:38

EatonL的博客 UnicodeEncodeError: 'gbk' codec can't encode character '\u203e' in position 37: illegal multibyte sequence 目前详细原因不明，目测是整体的编码和里面某些字符编码冲突导致按某一个编码解码时（GBK或UTF-8...
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29531: illegal multibyte s
2019-03-28 21:28

静待花开s0的博客 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29531: illegal multibyte sequence 就这么几行代码，为了获取baidu主页的网页源代码，一直报错，如标题，在网上查了许多，最终解决了...
python 报错'gbk' codec can't encode character '\ue5d1' in position 0:
2017-06-17 16:08

IT界的小小小学生的博客 'gbk' codec can't encode character '\ue5d1' in position 0: illegal multibyte sequence response = requests.get(url) html_uid = response.text # name=html_uid["result"]['name'] # pat
0-java常见2000英语单词
2022-10-22 22:19

lhp_weixin的博客 1 a collection of… 一组… a couple of… 几个 a kind of 一种 a number of… 许多… a point in time n.时间点 a set of… 一组… a series of 一系列 ability [ə’bɪlətɪ] n.能力 absence [ˈæbsəns] n....
爬虫抓取加入网页中
2022-01-11 10:35

小晨爱学习的博客 'association', 'assume', 'assumption', 'assurance', 'assure', 'astonish', 'astronaut', 'astronomy', 'at', 'athlete', 'atmosphere', 'atom', 'attach', 'attack', 'attain', 'attempt', 'attend', '...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

java爬蟲新手問題Illegal character in path at index 38

1条回答 默认 最新

悬赏问题

1条回答默认最新