nodejs抓取正文时乱码和无用标签

正在学习用nodejs抓取新闻，但是在抓取正文这里卡住了。
输出时，输出了一堆乱码+各种标签……

已解决乱码问题。求解如何去掉里面的无用标签？

检查发现编码
 <meta charset="gb2312" />
求问怎么去掉里面的各种标签并且转换成UTF-8呢？

使用iconv-lite库来转码

request({
url: 'http://news.163.com/15/0405/09/AME6CKER0001124J.html',
// 重点，设置 request 抓取网页时不要对接收到的数据做任何转换
encoding: null
}, function (err, res, body) {
if (err) throw err;

// 转换 gbk 编码的网页内容
body = iconv.decode(body, 'gbk');

// 根据网页内容创建DOM操作对象
var $ = cheerio.load(body);

nodejs库有：request、cheerio

js代码：

 // 读取新闻页面
request('http://news.163.com/15/0405/09/AME6CKER0001124J.html', function (err, res) {
  if (err) return callback(err);

  // 根据网页内容创建DOM操作对象
  var $ = cheerio.load(res.body.toString());


  // 获取正文内容
  var content = $('.end-text').html().trim();

  // 输出结果
  console.log({content: content});

新闻正文html：http://news.163.com/15/0405/09/AME6CKER0001124J.html

希望各位朋友能帮我解解惑，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2015-04-06 16:12
关注
用xslt或者正则表达式

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

nodejs中文运行时乱码 http node.js 服务器
2022-05-31 22:35

回答 2 已采纳 response.setHeader('Content-Type', 'text/html; charset=utf-8')
nodejs抓取图片时的问题 javascript node.js
2019-09-06 20:40

回答 1 已采纳已经解决啦，request后面的方法名写错了，是pipe,以及图片地址错了应是ImDir.
把vue前端和nodejs后端以及数据库部署到服务器，要怎么做，前端后端服务器
2022-02-08 10:52

回答 2 已采纳前面的：推荐使用宝塔面板进行部署服务器下载宝塔根据bt default获取宝塔面板的默认站点进入宝塔面板下载pm2、mysql、nginx等环境新建mysql数据库新建站点关联mysql数据库
零基础Nodejs爬虫心得体会分享
2020-04-29 03:13

Gwyn.的博客零基础nodejs爬虫心得体会分享本篇博客将记录仅有一学期C语言编程学习经验的学生，从零开始学习Nodejs爬虫的一些心得与总结。大多数代码都来自老师，我将对部分遇到的困难，和比较难以理解的部分进行分析。思路...
nodejs无法更改全局模块和缓存存放路径 javascript node.js
2023-04-17 17:12

回答 2 已采纳努力の小熊参考Chatgpt做出的回答：你在使用 npm config set 命令时，指定了新的全局安装路径 D:\nodejs\node global。错误信息显示执行命令时找不到 D:\node
nodejs 更改文件名时，报错 operation not permitted，如何解决？ node.js 前端
2022-04-19 17:00

回答 1 已采纳启动 node 程序以管理员身份启动试试
HBuilderX打包局域网网站nodejs和数据库部分如何打包 mysql node.js
2022-11-14 15:54

回答 1 已采纳先把里边的配置数据库的地方改为局域网的然后打包部署在局域网环境下
100天精通Andriod逆向——第4天：各种抓包工具学习
2022-08-10 12:59

Amo Xiang的博客在网页中，我们可以借助浏览器开发者工具中的 Network 面板看到网页中产生的所有网络请求和响应内容，然而 App 怎么办呢？要想拦截 App 中的网络请求，就得用到抓包工具了，例如：Charles、Fiddler、mitmproxy 等，...
this在nodeJS和V8引擎中的区别 javascript
2022-11-24 16:44

回答 1 已采纳 https://blog.csdn.net/nullccc/article/details/108931703
对于express和nodejs里回调函数的一些疑惑 javascript node.js 前端
2022-07-30 18:58

回答 4 已采纳可以肯定的回答是固定用法，express中get方法第二个参数是回调函数，而回调函数包含req和res两个参数也是定义好的promise需要两个参数，通过resolve进入.then，通过reject
前端vue加后端nodejs开发api接口连接不成功，如何解决？ node.js vue.js
2023-03-09 16:08

回答 4 已采纳 node服务端,body的中间件你没加上 // 解析post的两个中间件 app.use(express.json()) // 你只加了这个 // app.use(express.urlencoded
JavaScript 逆向 ( 一 ) --- JavaScript 语法基础、逆向技巧
2021-05-11 18:38

擒贼先擒王的博客口无用代码注入:随机在代码中插人不会被执行到的无用代码，进一步使代码看起来更加混乱。口调试保护:基于调试器特性，对当前运行环境进行检验，加人一些debugger 语句，使其在调试模式下难以顺利执行 JavaSeript...
尝试使用nodejs时没有输出 node.js php
2018-05-12 03:17

回答 3 已采纳 Try install like this : curl -sL https://deb.nodesource.com/setup_8.x | sudo -E bash - sudo apt-g
前端最全面试题整理（持续更新）
2023-02-17 23:56

胡肖一的博客二、CSS 1、说一下css盒子模型 2、画一条 0.5px 的线 3、link 标签和 import 标签的区别 4、css动画transition 和 animation 的区别 5、Flex 布局 6、BFC（块级格式化上下文，用于清除浮动，防止margin 重叠等） 7...
前端基础（一）
2021-11-22 20:32

将心_max的博客不积跬步无以至千里，不积小流无以成江海。基础很繁琐，看似无用，但细节见真知
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

nodejs抓取正文时乱码和无用标签

2条回答 默认 最新

悬赏问题

2条回答默认最新