使用Jsoup爬取天猫列表页时解析到乱码

想用Jsoup解析天猫商品搜索页面，但是解析后返回的document中所有在URL中传递的搜索关键字都变成了乱码，项目使用的是UTF-8.

 private List<ItemInfo> getFirstPageItemInfoList()   throws IOException,InterruptedException {
        String pageurljd = "http://search.jd.com/Search?keyword=" + pagedata.key_utf8 + "&enc=utf-8";
        String pageurlaz = "http://www.amazon.cn/s/ref=nb_sb_noss_1?__mk_zh_CN=亚马逊网站&url=search-alias%3Daps&field-keywords=" + pagedata.key_utf8;
        String pgurltb = "https://list.tmall.com/search_product.htm?q=" + this.pagedata.key_utf8;

        return getFromURLs(pageurljd, pageurlaz, pgurltb);
    }

public List<ItemInfo> getItemInfoList()
            throws IOException, InterruptedException {
        /**
         * 通过URL获得Document对象
         */
//                try {
//            String gbk=URLEncoder.encode(this.pageurl,"GBK");
//            System.out.println(gbk);
//        } catch (UnsupportedEncodingException e) {
//            e.printStackTrace();
//        }
        Document doc = Jsoup.connect(this.pageurl).userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36").timeout(3000).maxBodySize(0).post();
        //Document doc = Jsoup.parse(new URL(this.pageurl).openStream(), "GBK", this.pageurl);

        pagedata.tbpage = this.getPageNum(doc);

用浏览器查看天猫后台发现它的网页编码是meta charset=gbk，是因为这个原因吗，怎么修改好呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

千流sama 2019-01-04 16:01

关注

解决了，引入了java的URLEncoder，把中文转码成URL编码就可以爬取数据了，会在前台解析成中文，代码和加包如下：

package mytest;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URLEncoder;

import java.lang.String;

public class TBJsoupTest {

    public static void main(String[] args) throws MalformedURLException, IOException {

        String keyword = URLEncoder.encode("帽子");
        Document doc = Jsoup.connect("https://list.tmall.com/search_product.htm?q="+keyword).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36").timeout(3000).maxBodySize(0).post();
        //Document doc = Jsoup.parse(new URL("https://list.tmall.com/search_product.htm?q="+key).openStream(), "GBK", "https://list.tmall.com/search_product.htm?q="+key);
        System.out.println(doc.html());

    }
}

报告相同问题？

关注问题

java通过jsoup怎么爬取动态加载的内容 java
2018-04-10 08:23

回答 3 已采纳 https://blog.csdn.net/a812919698/article/details/52243080
关于 java 利用jsoup爬取图片的问题？ java 爬虫
2023-02-13 14:54

回答 3 已采纳每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！
Jsoup爬取数据超时,已设置timeout java
2019-07-09 22:22

回答 1 已采纳解决了...是网站的响应太慢了,把超时时间又加了十倍,慢慢的就打印完了...
SpringBoot中使用Jsoup爬取网站数据的方法
2020-10-15 05:48

主要介绍了SpringBoot中使用Jsoup爬取网站数据的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
使用jsoup爬虫时，页面标签有变化如何处理 java 爬虫
2022-01-05 11:52

回答 1 已采纳那看外面还有大标签嘛.爬虫的话.一般标签发生变化也就是网页改版.是需要重新修改代码的.没有一劳永逸的.就是爬虫代码是需要维护更新的
使用Jsoup爬虫时，报412错误 java
2021-01-11 11:20

回答 3 已采纳很明显啊，访问这个页面需要什么参数，但你没有携带
急！请问java的jsoup爬虫如何完整获得响应验证码？ java 开发语言爬虫
2022-04-21 11:40

回答 2 已采纳代码抛了异常，后面的代码没有执行。try catch 下抛出异常的代码试下。
java通过Jsoup爬取网页过程详解
2020-10-16 07:16

主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Android手机无法使用jsoup，如何解决？(语言-java|开发工具-eclipse) android eclipse java
2022-06-20 16:42

回答 1 已采纳 implementation 'org.jsoup:jsoup:1.14.3' 用的是这个开源包吗？
jsoup解析html，并获取所有列的值 java
2021-06-29 10:53

回答 4 已采纳加我前几天刚写
Jsoup怎么实现模拟点击按钮 java
2021-05-19 12:52

回答 1 已采纳 jsoup实现不了模拟点击按钮
利用Jsoup爬取天猫列表页数据
2015-01-15 09:26

我家有只哈士奇的博客由于技术有限天猫详细页的销售数据爬取不到,所以采用折中的方法改为爬列表页. 本文针对的是店内搜索页以下是获取网页数据: /** * @param URL 根据URL获取document */ public static Document ...
java.lang.NoClassDefFoundError: org/jsoup/Jsoup java
2017-01-26 06:49

回答 1 已采纳 ![build path配置也没有错](https://img-ask.csdn.net/upload/201701/26/1485413617_498796.png)
Java爬虫项目（一）利用Jsoup爬虫爬取天猫商品信息
2018-12-05 16:26

会编程的耗子的博客前言这是我第一次用Java来写...我测试了京东、淘宝、天猫这些大型购物网站，发现只有天猫商城是没有做任何反爬处理的，所以就从最简单的爬取天猫商品信息开始写。思路方法 1、对于没有反爬技术的网站思路最...
Java使用jsoup爬取网页数据
2022-05-12 11:19

惊天神猿的博客虽然可以爬取数据，但是不能获取网页的视频（tika包可以）、音乐、Ajax数据，只能获取页面渲染出的元素和数据。必须联网。 1、引入maven包 <dependency> <groupId>org.jsoup</groupId> <...
Java使用Jsoup爬取网页数据
2022-03-16 19:33

lixiaobolv1的博客 1、引入依赖 org.jsoup jsoup 1.13.1 2、基本方法 public static void main(String[] args) throws IOException { // 1、访问url String url = ""; // 2、参数，没有可不写 Map, String> params = new HashMap(); //...
java jsoup爬取动态网页_java通过Jsoup爬取网页过程详解
2021-03-10 03:01

weixin_39845241的博客这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下一，导入依赖org.jsoupjsoup1.10.3org.apache.httpcomponents...
没有解决我的问题, 去提问

悬赏问题

¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿

码龄粉丝数原力等级 --

使用Jsoup爬取天猫列表页时解析到乱码

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

使用Jsoup爬取天猫列表页时解析到乱码

1条回答 默认 最新

悬赏问题

1条回答默认最新