使用nodejs抓取时，出现问题（详看正文）

newsList和newsDetail单独拿出来调试没有问题。但如下放在一起时，提示

 body is not defined

经多次调试，错误节点应该是出现在readNewsDetail()中

 // 转换 gbk 编码的网页内容
        body2 = iconv.decode(body, 'gbk');

        // 根据网页内容创建DOM操作对象
        var $ = cheerio.load(body2);

这两句。因为直接 var $ = cheerio.load(res.body.toString()); 的话，不会报错。但这样一来，输出的就是乱码了，所以必须转码。但一按照我的写法转码，就会报错……
请教各位，这个问题应该怎么解决？谢谢！！！

源码：

 var request = require('request');
var cheerio = require('cheerio');
var iconv = require('iconv-lite');
var async = require('async');
var debug = require('debug')('sina1:update');

/**
 * 获取新闻列表
 */
function readNewsList(url, callback) {
    debug('读取新闻列表：%s', url);

    request(url, function(err, res) {
        if (err) return callback(err);

        // 根据网页内容创建DOM操作对象
        var $ = cheerio.load(res.body.toString());

        // 读取新闻列表
        var newsList = [];
        $('.news-item').each(function() {
            var $me = $(this);
            var $title = $me.find('h2 a');
            var $time = $me.find('.time');
            var $url = $me.find('h2 a');

            var item = {
                title: $title.text().trim(),
                url: $url.attr('href'),
                time: $time.text().trim()
            };

            newsList.push(item);
        });

        // 返回结果
        callback(null, newsList);
    });
}


/**
 * 获取新闻页面内容
 */
function readNewsDetail(url, callback) {
    debug('读取新闻内容：%s', url);

    request(url, function(err, res) {
        if (err) return callback(err);

        // 转换 gbk 编码的网页内容
        body2 = iconv.decode(body, 'gbk');

        // 根据网页内容创建DOM操作对象
        var $ = cheerio.load(body2);

        // 获取正文内容

        var newsDetail = [];
        $('.article').each(function() {
            var $me = $(this);
            var $img = $me.find('.img_wrapper img');

            var item = {
                content: $me.html().trim(),
                img: $img.attr('src')
            };

            newsDetail.push(item);

        });
        // 返回结果
        callback(null, newsDetail);
    });
}

// 读取列表下的所有新闻
readNewsList('http://news.sina.com.cn/china/', function(err, newsList) {
    if (err) return console.error(err.stack);

    // 依次取出 newsList 数组的每个元素，调用第二个参数中传入的函数
    // 函数的第一个参数即是 newsList 数组的其中一个元素
    // 函数的第二个参数是回调函数
    async.eachSeries(newsList, function(news, next) {

        // 读取新闻正文
        readNewsDetail(news.url, function(err, detail) {
            console.log(detail);
//          if (err) console.error(err.stack);
//
//          // 直接显示
//          console.log(detail);
//
//
//          // 需要调用 next() 来返回
//          next();
        });

    }, function(err) {
        // 当遍历完 newsList 后，执行此回调函数

        if (err) return console.error(err.stack);

        console.log('完成');
    });

});

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lhl_lqc 2015-04-07 05:40
关注
你这个body没有定义啊。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

nodejs抓取图片时的问题 javascript node.js
2019-09-06 20:40

回答 1 已采纳已经解决啦，request后面的方法名写错了，是pipe,以及图片地址错了应是ImDir.
用nodejs发送数据给前端前端
2022-07-30 23:25

回答 1 已采纳 https://blog.csdn.net/qq_52354004/article/details/125032917
nodejs使用request包在while循环里发送get请求遇到的问题 javascript node.js 前端框架
2022-10-14 09:10

回答 6 已采纳 request.get 是异步的，你一下开启了10个任务，和一个主线任务，可能主线任务先结束，然后10个异步任务才执行，我看看怎么改你看的懂 const request = require('requ
nodejs抓取数据
2022-02-23 09:28

杰姆小生的博客 const base_url = '需要抓取的域名'; var domain = '图片下载替换的域名'; //相对于public 的目录 var img_dir = '/uploads/'; var data_dir = '保存数据的文件夹路径'; // var data_dir = '/uploads'; //创建图片...
nodejs 使用 express 传输大文件（140M 左右）时崩溃（出现 GC 异常） javascript node.js
2022-01-25 11:21

回答 4 已采纳这个为什么不考虑streaming方式传输呢估计你把res.send换成res.write（就是要用buffer之类的分块）最后加一个res.end 就没事了，在接收那里也处理streaming
nodejs传的值到前端后数据发生改变 javascript node.js 前端
2023-04-19 22:51

回答 2 已采纳该回答引用NewBing 你好，根据你的描述，我猜测你的问题可能是由于前端传递的true和false被转换成了字符串类型，而后端在接收到这些字符串时将它们转换回了布尔类型。这种情况下，如果你使用的是M
nodejs中post请求参数接收问题 javascript node.js 前端
2023-03-06 14:20

回答 2 已采纳呃，谢谢，但这不是我现在遇到的问题
前端之使用NodeJS+Cheerio实现网络爬虫图解
2022-09-01 09:58

梦远星帆的博客图解使用NodeJS+Cheerio实现网络爬虫来进行数据爬取使用。
尝试使用nodejs时没有输出 node.js php
2018-05-12 03:17

回答 3 已采纳 Try install like this : curl -sL https://deb.nodesource.com/setup_8.x | sudo -E bash - sudo apt-g
nodejs中的undefined问题 javascript node.js
2021-08-16 20:26

回答 2 已采纳 JS中赋值语句返回赋值，声明变量语句没有返回值，比如 x = 10 会返回 10，所以会显示10， var y = 5 没有返回值，所以现实undefined。同理我们还可以这么玩： let x =
nodejs 更改文件名时，报错 operation not permitted，如何解决？ node.js 前端
2022-04-19 17:00

回答 1 已采纳启动 node 程序以管理员身份启动试试
服务端nodejs抓取jsonp接口数据
2022-04-08 17:01

天問_的博客众所周知，jsonp 接口返回的是一段 js 脚本，在浏览器中使用 script 标签引入、...但是如果在非浏览器环境（node执行环境）中怎么来抓取呢，本文就主要介绍一下，服务端nodejs抓取jsonp接口数据的思路方法和踩过的坑。
nodejs代理前后端地址不一致问题 vue.js 前端
2021-12-05 19:31

回答 3 已采纳引号不对
nodejs 实现抓取数据
2021-11-17 11:30

浅~的博客 nodejs 实现抓取数据方式一:通过nodejs自身的方法抓取数据需要模块：http或者https模块、cheerio（实现dom获取）第三方模块、fs文件操作、path路径 // 抓数据用的模块 http、https，这两个都是内置模块（核心...
nodejs-puppeteer爬虫抓取网页
2022-11-25 09:51

騒粘虎的博客 puppeteer爬虫抓取数据，处理完数据存入自己的数据库，抓取的图片可以存入阿里云oss或七牛云，学会了这个，你可以抓取99%的网页了。
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥15 绘制多分类任务的roc曲线时只画出了一类的roc，其它的auc显示为nan
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？

使用nodejs抓取时，出现问题（详看正文）

2条回答 默认 最新

悬赏问题

2条回答默认最新