fortheleaf 2015-04-06 15:42 采纳率: 0%
浏览 2105

nodejs抓取正文时乱码和无用标签

正在学习用nodejs抓取新闻,但是在抓取正文这里卡住了。
输出时,输出了一堆乱码+各种标签……

已解决乱码问题。求解如何去掉里面的无用标签?

检查发现编码

 <meta charset="gb2312" />

求问怎么去掉里面的各种标签并且转换成UTF-8呢?

使用iconv-lite库来转码

request({
url: 'http://news.163.com/15/0405/09/AME6CKER0001124J.html',
// 重点,设置 request 抓取网页时不要对接收到的数据做任何转换
encoding: null
}, function (err, res, body) {
if (err) throw err;

// 转换 gbk 编码的网页内容
body = iconv.decode(body, 'gbk');

// 根据网页内容创建DOM操作对象
var $ = cheerio.load(body);

nodejs库有:request、cheerio

js代码:

 // 读取新闻页面
request('http://news.163.com/15/0405/09/AME6CKER0001124J.html', function (err, res) {
  if (err) return callback(err);

  // 根据网页内容创建DOM操作对象
  var $ = cheerio.load(res.body.toString());


  // 获取正文内容
  var content = $('.end-text').html().trim();

  // 输出结果
  console.log({content: content});

新闻正文html:http://news.163.com/15/0405/09/AME6CKER0001124J.html

希望各位朋友能帮我解解惑,谢谢!

  • 写回答

2条回答 默认 最新

  • threenewbee 2015-04-06 16:12
    关注

    用xslt或者正则表达式

    评论

报告相同问题?

悬赏问题

  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python