iconv，node 爬虫，中文乱码

想爬一些免费小说，但是发现第一章乱码，第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗？

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2023-04-11 00:06
关注
以下内容部分参考ChatGPT模型：

乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换，使其变成可读的字符。具体使用方法如下：

1.安装iconv

在命令行输入以下命令进行安装：

npm install iconv --save

2.引入iconv模块

在代码中引入iconv模块：

const iconv = require('iconv');

3.使用iconv进行编码转换

在爬取网页内容后，使用iconv将内容进行编码转换。例如，将gb18030编码格式的字符串转换为utf-8编码格式：

let content = iconv.decode(body, 'gb18030'); content = iconv.encode(content, 'utf-8').toString();

4.使用转换后的内容进行后续操作

将转换后的内容用于后续操作，比如解析HTML文档或者写入文件等。

完整代码示例：

const request = require('request'); const iconv = require('iconv'); request({ url: 'http://example.com', encoding: null // 设置为null，返回buffer类型的数据 }, (err, res, body) => { if (err) { console.error(err); return; } // 将gb18030编码格式的内容转换为utf-8编码格式 let content = iconv.decode(body, 'gb18030'); content = iconv.encode(content, 'utf-8').toString(); // 使用转换后的内容进行后续操作 console.log(content); });

注意：在使用iconv转换编码格式时，一定要先将数据解码为buffer类型，然后再进行编码转换。

如果我的建议对您有帮助、请点击采纳、祝您生活愉快
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

iconv，node 爬虫，中文乱码 node.js 爬虫
2023-04-10 23:19

回答 2 已采纳以下内容部分参考ChatGPT模型：乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换，使其变成可读的字符。具体使用方法如下
node js打包的时候安装模块安不上提示异常 node.js 前端前端框架
2023-03-12 21:54

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ这个错误看起来像是由于缺少一些 Node.js 核心模块而导致的问题。具体来说，js-md4 模块需要 Node.js 的 crypto 模块，而 native-dns-c
Iconv在phpunit中返回错误的字符串 php symfony
2018-05-20 14:04

回答 2 已采纳 Ok, I solved a problem. Php in CLI don't set locale. So we must set it before tests. 1. Check loc
Node爬虫GBK网页中文乱码
2022-07-10 10:19

小小学编程的博客 Node爬虫GBK网页中文乱码，有两种方式可以解决一、使用superagent-charset模块其实 superagent-charset插件也用到了iconv-lite 二、使用iconv-lite模块进行转码 conv-lite是一个进行编码转换的模块（node 默认...
iconv（） - 如何检测违规字符？ php
2017-11-10 11:26

回答 1 已采纳 It was bad idea to work with string as char array (see question comments) because php string type
Laravel 5.4调用未定义的函数App \ iconv（） php
2017-11-01 13:51

回答 1 已采纳 You may need to ask your hosting provider to give/install PHP compiled with iconv. Because by defa
PHP iconv_strlen问题 php
2011-06-13 11:20

回答 1 已采纳 A character sequence is a series of bytes. When using UTF-8 not all combinations of bytes are vali
Node爬虫利用Jquery解析元素，利用 iconv.decode之后还是乱码
2020-12-20 17:47

maboii的博客最近在学习Node爬虫，其中就用到了Jquery解析页面元素，在爬取页面的时候利用 iconv.decode之后还是乱码，那么首先要搞清楚下面的内容问题就迎刃而解了。 const Decodebody = iconv.decode(body, 'gb2312') 这行代码...
获取iconv转换我的字符串 php
2011-04-14 20:53

回答 1 已采纳 I initially thought that this is an encoding problem on your end, but if I copy + paste those char
php通过odbc读取informix数据出现乱码，应该怎么修改？ php
2012-12-04 07:49

回答 2 已采纳乱码现象是由编码未统一造成的 PHP 转码可用如下方式进行转码: ``` string iconv ( string $in_charset , string $out_charse
初次安装CodeBlocks，一运行就出现no iconv implementation, cannot convert from UTF-8 to GBK c语言
2022-08-16 21:58

回答 4 已采纳瞅瞅行不行https://blog.csdn.net/qq_34837137/article/details/60777747
node爬虫的使用以及解决数据乱码的问题
2021-10-22 14:37

st紫月的博客 node爬虫需要用到的模块： npm install request npm install iconv-lite npm install cheerio request 是一个用来简化 HTTP 请求操作的模块,默认是用get方法 var request = require('request'); // 通过 GET 请求来...
我应该为多字节字符串使用mb_ *或iconv_ *函数吗？ php
2009-07-04 18:52

回答 1 已采纳 Have a look at this Powerpoint presentation: http://www.nyphp.org/content/presentations/smallworl
node爬虫gbk中文乱码问题
2018-04-02 22:30

weixin_30549175的博客刚入坑node 写第二个node爬虫时，遇到了这个坑，记录一下。主要步骤： 1.安装iconv-lite 输入npm install iconv-lite 2.将接收到的网页源码以二进制的方式存储下来，处理二进制数据流使用Buffer全局对象。 3....
node.js 爬虫中文乱码 处理
2018-07-13 15:19

weixin_30535913的博客爬虫中文乱码可做如下处理 import request from 'superagent'; import cheerio from 'cheerio';//类似jquery写法 const Iconv = require('iconv').Iconv; const iconv = new Iconv('GBK', 'UTF-8'); ...
详解nodejs爬虫程序解决gbk等中文编码问题
2020-12-23 07:50

使用nodejs写了一个爬虫的demo，目的是提取网页的title部分。遇到最大的问题就是网页的编码与nodejs默认编码不一致造成的乱码问题。nodejs支持utf8, ucs2, ascii, binary, base64, hex等编码方式，但是对于汉语言...
node.js爬虫解决乱码问题+解析网页小结
2018-12-26 09:01

张小益达的博客 node.js爬虫解决乱码问题前端学习进程在爬取出来整个界面之后，可以试着输出看一下整个内容时候是自己想要的，也看看时候出现了乱码问题，解决乱码问题有很多种方法，我当初就试过很多种方法，真正有效的不多，...
Node.js数据抓取乱码问题汇总
2022-11-25 11:09

q56731523的博客一般简单使用后，还是乱码形如：пїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ。所有这里主要说的是 Windows-1251（cp1251）编码与utf-...
python node 爬虫_Node.js 实现简单小说爬虫
2020-12-20 10:33

weixin_39622568的博客最近因为剧荒，老大追了爱奇艺的一...都是在线资源，下载的话需要登录，注册登录好麻烦，写个爬虫玩玩也好，于是动手用 node 写了一个，这里做下笔记工作流程获取 URLs 列表(请求资源 request 模块)根据 URLs 列表获...
node爬虫之gbk网页中文乱码解决方案
2016-01-25 16:47

weixin_33859844的博客之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决，今天整理下备忘。（PS：网上一些解决方案都已经不行了） 中文乱码具体是指用 node 请求 gbk 编码的网页，无法正确获取网页中的中文（需要转码），"gbk&...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

悬赏问题

¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 关于大棚监测的pcb板设计
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)

iconv，node 爬虫，中文乱码

2条回答 默认 最新

以下内容部分参考ChatGPT模型：

如果我的建议对您有帮助、请点击采纳、祝您生活愉快

问题事件

悬赏问题

2条回答默认最新