咸鱼肥美妖娆 2023-04-10 23:19 采纳率: 75%
浏览 28
已结题

iconv,node 爬虫,中文乱码

想爬一些免费小说,但是发现第一章乱码,第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗?

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )
  • 写回答

2条回答 默认 最新

  • 阿里嘎多学长 2023-04-11 00:06
    关注

    以下内容部分参考ChatGPT模型:


    乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换,使其变成可读的字符。具体使用方法如下:

    1.安装iconv

    在命令行输入以下命令进行安装:

    npm install iconv --save
    

    2.引入iconv模块

    在代码中引入iconv模块:

    const iconv = require('iconv');
    

    3.使用iconv进行编码转换

    在爬取网页内容后,使用iconv将内容进行编码转换。例如,将gb18030编码格式的字符串转换为utf-8编码格式:

    let content = iconv.decode(body, 'gb18030');
    content = iconv.encode(content, 'utf-8').toString();
    

    4.使用转换后的内容进行后续操作

    将转换后的内容用于后续操作,比如解析HTML文档或者写入文件等。

    完整代码示例:

    const request = require('request');
    const iconv = require('iconv');
    
    request({
      url: 'http://example.com',
      encoding: null // 设置为null,返回buffer类型的数据
    }, (err, res, body) => {
      if (err) {
        console.error(err);
        return;
      }
      // 将gb18030编码格式的内容转换为utf-8编码格式
      let content = iconv.decode(body, 'gb18030');
      content = iconv.encode(content, 'utf-8').toString();
      // 使用转换后的内容进行后续操作
      console.log(content);
    });
    

    注意:在使用iconv转换编码格式时,一定要先将数据解码为buffer类型,然后再进行编码转换。


    如果我的建议对您有帮助、请点击采纳、祝您生活愉快

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月19日
  • 已采纳回答 4月11日
  • 创建了问题 4月10日

悬赏问题

  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP
  • ¥15 Python turtle 画图
  • ¥15 关于大棚监测的pcb板设计
  • ¥15 stm32开发clion时遇到的编译问题
  • ¥15 lna设计 源简并电感型共源放大器
  • ¥15 如何用Labview在myRIO上做LCD显示?(语言-开发语言)