咸鱼肥美妖娆 2023-04-10 23:19 采纳率: 75%
浏览 28
已结题

iconv,node 爬虫,中文乱码

想爬一些免费小说,但是发现第一章乱码,第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗?

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )
  • 写回答

2条回答 默认 最新

  • 阿里嘎多学长 2023-04-11 00:06
    关注

    以下内容部分参考ChatGPT模型:


    乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换,使其变成可读的字符。具体使用方法如下:

    1.安装iconv

    在命令行输入以下命令进行安装:

    npm install iconv --save
    

    2.引入iconv模块

    在代码中引入iconv模块:

    const iconv = require('iconv');
    

    3.使用iconv进行编码转换

    在爬取网页内容后,使用iconv将内容进行编码转换。例如,将gb18030编码格式的字符串转换为utf-8编码格式:

    let content = iconv.decode(body, 'gb18030');
    content = iconv.encode(content, 'utf-8').toString();
    

    4.使用转换后的内容进行后续操作

    将转换后的内容用于后续操作,比如解析HTML文档或者写入文件等。

    完整代码示例:

    const request = require('request');
    const iconv = require('iconv');
    
    request({
      url: 'http://example.com',
      encoding: null // 设置为null,返回buffer类型的数据
    }, (err, res, body) => {
      if (err) {
        console.error(err);
        return;
      }
      // 将gb18030编码格式的内容转换为utf-8编码格式
      let content = iconv.decode(body, 'gb18030');
      content = iconv.encode(content, 'utf-8').toString();
      // 使用转换后的内容进行后续操作
      console.log(content);
    });
    

    注意:在使用iconv转换编码格式时,一定要先将数据解码为buffer类型,然后再进行编码转换。


    如果我的建议对您有帮助、请点击采纳、祝您生活愉快

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月19日
  • 已采纳回答 4月11日
  • 创建了问题 4月10日

悬赏问题

  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效