node的爬取网页图片

使用node爬区一个网站当中所有的图片的链接，不用下载，该怎么样写代码

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

音药 2022-08-29 08:39

关注

给你一个案例

const http = require("http");
const fs = require('fs');
const cheerio = require('cheerio');
const request = require('request');
let iconv = require("iconv-lite");
let index = 13;
// const url = 'http://www.netbian.com'
const url = 'http://www.netbian.com/index_13.htm'

const getData = (url) => {
    http.get(url, (res) => {
        let buffer = [];
        let bufferLength = 0;
        res.on("data", chunk => {
            buffer.push(chunk);
            bufferLength += chunk.length;
        });
        res.on("end", () => {
            // 现在将所有buffer组合为一个整体buffer
            let bufferData = Buffer.concat(buffer, bufferLength);
            // 使用 iconv 以 GBK 编码转换为字符串。
            var html = iconv.decode(bufferData, "GBK");
            // console.log(html); // 现在得到的页面内容就没有乱码的了。
            var $ = cheerio.load(html);
            $('.list img').each((i, el) => {
                const text = $(el).attr('alt').replace(/\s*/g,"")
                const img_url = $(el).attr('src')
                console.log(text,'=====',  index + '_' + (i+1))
                console.log(img_url)
                request.head(img_url, function(error, res,body){
                    if(error){
                        console.log('失败了')
                    }
                });
                //通过管道的方式用fs模块将图片写到本地的images文件下
                request(img_url).pipe(fs.createWriteStream('./images/' + index + '_' + (i+1) + '.jpg'));
            })
            if (index > 1228) return;
            index++;
            getData(`http://www.netbian.com/index_${index}.htm`);
        });
    });
}

fs.stat('images', (error,stats) => {
    if (error) {
        fs.mkdir("images", (err) => {
            if (err) console.log('err', err)
            console.log('创建目录成功');
        });
    }
})
getData(url)




```javascript

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

node的爬取网页图片 node.js
2022-08-28 23:53

回答 1 已采纳给你一个案例 const http = require("http"); const fs = require('fs'); const cheerio = require('cheerio'); c
爬取网页，html代码报错 html pycharm python
2022-01-11 17:25

回答 2 已采纳 htmls是你上面函数download_all_htmls返回值，你需要先调用该函数建议修改代码如下： if __name__=='__main__': htmls=download_all
前端有必要学Node.js吗？ node.js 前端前端框架
2022-09-29 16:36

回答 5 已采纳我建议学 java 或者go 。现在大部分都是这两个。node 我几乎在公司里没咋遇到过（也有可能公司小）
【node】用node爬取网页文本内容，将内容存储到文本中；爬取网页图片，将爬取的图片存储到目录
2023-08-14 08:38

来自湖南的阿晨的博客【node】用node爬取网页文本内容，将内容存储到文本中；爬取网页图片，将爬取的图片存储到目录
初级前端需要学习node和express吗前端
2022-05-14 22:42

回答 3 已采纳初级前端学好html+css+js，进阶阶段再慢慢学习node，如果不涉及后端，可以先不学express。想快速找到工作，可以先学装node，会简单安装npm，搭建vue或者react就可以，初级的要
nodejs抓取图片时的问题 javascript node.js
2019-09-06 20:40

回答 1 已采纳已经解决啦，request后面的方法名写错了，是pipe,以及图片地址错了应是ImDir.
node.js 如何将前端传来用svg图片转成的base64字符串再转成svg图片 node.js
2022-06-30 22:35

回答 3 已采纳 const fs = require('fs'); const base64str = fs.readFileSync('./任意文件svg也行.png').toString('base64');
JS+node爬取网页的数据
2022-07-11 17:10

努力的程序员30*15k的博客 js+node 爬虫爬取静态页面
RN项目爬取html网页乱码问题 android html5 javascript node.js
2018-12-22 17:38

回答 1 已采纳 https://blog.csdn.net/xsb_20171227/article/details/86438890 https://blog.csdn.net/xsb_20171227/arti
node.js哪个版本比较稳定？ node.js 前端
2022-11-24 18:01

回答 3 已采纳 16就不错，不会太高，也不会太低，要是需要多个版本node可以弄个nvm管理node版本
前端请求后台数据中有图片二进制流的问题 node.js vue.js 前端
2022-04-05 21:01

回答 4 已采纳我的猜测是后台的后台的IP地址+:+端口+cover_img ,应该就可以了，比如 <img src="P地址+:+端口+cover_img"> 具体的值换一下，不行你就只能找后台确认一
node 爬取页面数据
2022-12-08 11:11

&nesp; 的博客 node + cheerio 爬取页面数据
搭建若依前端npm install提示错误 node.js npm 前端
2022-05-26 14:45

回答 1 已采纳给个建议：1、删除项目根目录下的package-lock.json文件2、删除node_modules文件夹3、重新安装依赖 npm install
node爬虫爬取图片
2022-07-21 11:43

LIN-z.的博客 node爬虫爬取图片
使用node 爬取网上图片
2018-04-09 17:56

一个前端小朋友的博客依赖模块用到了以下几个 var fs = require(‘fs’); var request = require(“request”); var cheerio = require(“cheerio”); var mkdirp = require(‘mkdirp’); var fs = require(‘fs’);...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月28日

悬赏问题

¥15 win10权限管理，限制普通用户使用删除功能
¥15 minnio内存占用过大，内存没被回收（Windows环境）
¥65 抖音咸鱼付款链接转码支付宝
¥15 ubuntu22.04上安装ursim-3.15.8.106339遇到的问题
¥15 求螺旋焊缝的图像处理
¥15 blast算法（相关搜索：数据库）
¥15 请问有人会紧聚焦相关的matlab知识嘛？
¥15 网络通信安全解决方案
¥50 yalmip+Gurobi
¥20 win10修改放大文本以及缩放与布局后蓝屏无法正常进入桌面

node的爬取网页图片

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新