关于 java 利用jsoup爬取图片的问题？

利用jsoup爬取网站图片，

//imgStr为图片的url
Connection.Response response = Jsoup.connect(imgStr).userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.76")
                                    .ignoreContentType(true).execute();
//调用下载
loadImg(response.bodyAsBytes())；

图片下载本地

public void loadImg(byte[] bt) throws IOException {
            String imgName ;
            SimpleDateFormat df = new SimpleDateFormat("yyyyMMddHHmmss");//设置日期格式
            imgName = df.format(new Date()) +".jpg";
            ByteArrayInputStream stream = new ByteArrayInputStream(bt);
            FileUtils.copyInputStreamToFile(stream, new File("D://picture2//"+ imgName ));
            System.out.println("下载完成");
        }

可是下载的图片时损坏状态。于是我用notepad+将损坏图片打开，发现竟然时html代码。

有的网站用上面的代码是可以下载图片，但是有的网站就会遇到上面的问题。
我想问一下这是哪里出了问题，该怎么解决？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-02-13 15:51
关注
每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

spring boot+java +jsoup+ 爬虫
2022-03-30 22:11

Java 作为后端编程语言，因其性能稳定、跨平台性以及丰富的库支持而被广泛应用于爬虫开发。Java的HttpURLConnection或者Apache HttpClient库可用于发送HTTP请求，获取网页内容。在此项目中，Java是实现爬虫逻辑的...
Java爬虫Jsoup+httpclient获取动态生成的数据
2020-10-19 21:21

本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据，特别是那些通过JavaScript动态加载的数据。 ### Java爬虫基础 Java爬虫是指使用Java语言编写的一类程序，这些程序...
jsoup如何爬取图片到本地
2020-10-18 18:47

【知识点详解】 1. **Jsoup库介绍**：Jsoup是一个...以上就是关于使用Jsoup爬取并保存图片到本地的主要知识点，包括Jsoup的基本用法、网络请求、图片下载及Spring MVC的集成。希望对你理解和实现类似功能有所帮助。
Java实现爬虫，自动爬取图片
2023-02-27 17:08

在IT行业中，Java是一种广泛应用的编程语言，尤其在构建网络应用程序和系统自动化方面表现出色。本项目关注的是使用Java实现一个简单的爬虫程序，能够自动爬取并下载指定网站的图片资源，这对于数据抓取、图像分析...
Java爬虫项目（一）利用Jsoup爬虫爬取天猫商品信息
2018-12-05 16:26

会编程的耗子的博客这是我第一次用Java来写爬虫项目，研究的也不是很透彻，所以爬虫技术的理论方面的就不说太多了。主要还是以如何爬取商品信息为主，爬取最简单的商品信息，给出大概的思路和方法。对于没有反爬技术的网站，爬取...
Java实现爬取百度图片的方法分析
2020-10-17 14:27

以上所述内容，从理论到实践，从工具到技巧，详细介绍了利用Java语言结合JSOUP库爬取网络图片资源的全过程。读者通过学习这些知识点，将能够掌握基本的网络爬虫开发技能，实现对网络图片资源的有效抓取。
基于SpringBoot+HtmlClient+Jsoup实现java爬取网易云音乐.zip
2025-08-22 11:31

本次项目的目标是利用Java语言结合SpringBoot框架、HtmlClient和Jsoup库来实现对网易云音乐的数据爬取。 SpringBoot作为Spring框架中的一个模块，以其便捷的开发效率和对常用配置的默认设置而受到开发者们的青睐。...
Java+爬虫+爬取图片+完整案例+源码
2018-06-17 22:25

在本项目中，我们主要探讨如何使用Java编程语言来实现一个网页图片爬虫。这个案例提供了完整的源码，便于理解并直接运行。我们将通过两个关键库——Httpclient和Jsoup，来实现网络请求和HTML页面解析。以下是详细的...
通过jsoup，输入流InputStream爬取图片PaQuPic.rar，有意者入
2019-08-10 14:15

在本教程中，我们将探讨如何利用JSoup结合InputStream来爬取并下载网络上的图片。首先，我们需要理解`InputStream`。在Java中，`InputStream`是所有字节输入流的基类，用于读取一系列字节数据。在网络爬虫中，当...
基于Springboot+Jsoup实现网上免费公开图片资源爬取
2023-01-29 18:10

**基于Springboot+Jsoup实现网上免费公开图片资源爬取** 在互联网上，存在大量免费的公开图片资源，这些资源可以用于各种用途，如网站设计、个人项目或学术研究。为了方便获取这些资源，我们可以利用编程技术来创建...
Java——HttpClient爬取网页，jsoup解析网页
2022-08-28 11:28

@Meto的博客 Java使用HttpCilent爬取网页内容，同时呢用jsoup解析网页，获取所需资源。
基于Java开发的简单steam爬虫。使用jsoup+jdbc实现用户资料爬取存储以及商店页面游戏图片下载。.zip
2023-12-17 21:42

1. **Java编程语言**：作为项目的基础，Java是一种广泛使用的面向对象的编程语言，具有跨平台性、高效性和丰富的库支持。在这个项目中，Java被用来编写爬虫的主要逻辑。 2. **Jsoup库**：Jsoup是一款非常实用的Java...
java爬虫——HttpClient爬取jsoup解析
2022-08-27 18:32

nianyuw的博客简介了java如何使用HttpClient爬取html代码以及使用jsoup解析html内容，获取想要的内容
JAVA爬虫入门篇——jsoup
2024-05-04 11:41

Olrookie的博客在一个偶然的机会下，我接到了一个网页爬虫的需求。但是之前对爬虫也只是偶尔听说，那么这次就借这次机会来进行一次爬虫相关入门。然而由于本人技术栈限制，这次仅是通过Java进行爬虫进行入门学习。
基于JAVA的网络小说爬取与分析软件 -电子硬件课程设计资源
2025-04-07 06:32

基于JAVA的网络小说爬取与分析软件是专门为电子硬件课程设计的一个项目资源，它利用JAVA语言的强大功能，实现了网络小说数据的高效爬取和分析。该项目的主要目标是通过编写爬虫程序，从网络上获取大量的小说文本资源...
Java爬取百度图片&Google图片&Bing图片
2019-08-14 01:06

在本项目中，我们主要探讨的是如何使用Java编程语言来实现对百度、Google以及Bing这三个主流搜索引擎的图片抓取功能。这个项目名为"ImageCrawler"，它可能是一个简单的命令行工具，用于批量下载指定关键词的网络图片...
使用 HttpClient 和 Jsoup 库来爬取网页内容
2025-08-18 16:01

三生*烟火的博客 1、简介jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。中文官网：...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

关于 java 利用jsoup爬取图片的问题？

3条回答 默认 最新

问题事件

3条回答默认最新