网页中的文本抓取下来是乱码，怎么解析？

想写一个抓文的小demo，发现直接拉下来的web内容，文本是乱码，但是用google的源代码查看，能够正确显示文字。
这是怎么回事呢？我试过把抓取内容的字符串用gbk转为unicode，效果并不好。
我测试的url ：view-source:http://book.zongheng.com/chapter/309318/33658339.html

请问：
1，这样的文本一般采用的是什么编码呢？
2，为何页面和google的源代码查看器可以正确显示呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-09-30 15:46
关注
http://www.zhihu.com/question/19696249

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

php curl 抓取taobao评价出现中文乱码 php 阿里云
2018-11-23 09:32

回答 1 已采纳是不是数据库传输的数据乱码？如果是的话在链接的时候加上charset=utf8
python 如何抓取网页地址保存为图片？ python
2021-11-09 13:05

回答 1 已采纳 PIL ,或者pyautogui
为什么用selenium抓取不到淘宝网页数据？ chrome python selenium 有问必答
2022-01-24 12:19

回答 2 已采纳 xpath写错了
java抓取网页数据乱码_java抓取网页保存的乱码问题解决
2021-02-25 19:45

懂点交通的GISer的博客昨天用java抓取html文件，获取下来的html文件打开总是带有乱码，弄了半天搞定了。其实要避免乱码的一个好方法：没有必要去判断页面的编码方式，只要读取的数据按字节(而不是按字符)保存起来就可以了，后缀为html文件...
Java HTTP Client 抓取网页，这个网页无论用什么编码都是乱码？爬虫
2015-01-28 02:20

回答 2 已采纳 ``` // 默认的client类。 HttpClient client = new DefaultHttpClient(); // 设置为get取连接的方式. Ht
用python美丽汤爬虫抓取网页中自己的姓名怎么弄代码？ python 有问必答
2021-11-25 08:53

回答 3 已采纳爬取题主问题中的名字，自己改下css选择器 import requests from bs4 import BeautifulSoup html=requests.get("https://ask.
Linux c socket抓取网页保存到文件一直是乱码 linux
2015-09-18 13:59

回答 4 已采纳 strlen遇到\0就返回了，所以计算的值不一定准确啊
curl抓取页面是乱码 php_php使用curl获取文本出现中文乱码的解决办法
2020-12-19 11:20

weixin_39945445的博客在使用php的curl获取远程html文本时出现了中文乱码。解决办法的代码如下：$url = "www.ecjson.com";//获取页面内容$ch = curl_init();curl_setopt ($ch, CURLOPT_URL, $url);curl_setopt ($ch, CURLOPT_...
selenium获取的网页文本怎么装入excel中 python 有问必答
2021-07-07 11:15

回答 1 已采纳参考一下：https://blog.csdn.net/u013250071/article/details/81911434 如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
requests 抓取网页信息为什么获取不到信息？ python
2018-10-25 07:51

回答 2 已采纳这里有大佬详细分析和图解抓取方法https://www.cnblogs.com/nan86150/p/4272452.html
如何分析并抓取一个网页满足特定日期条件的所有数据？ python
2022-06-12 17:23

回答 1 已采纳抓取网页数据的几种方法_LiZhen798的博客-CSDN博客_网页数据抓取相信所有个人网站的站长都有抓取别人数据的经历吧，目前抓取别人
java抓取的页面乱码_java抓取页面中文乱码解决方法
2021-03-14 10:23

weixin_39654067的博客大部分网页以utf8编码格式存储，而通过网络抓取页面时，将utf8作为字节流形式传输到本地，因此需要将字节流转换回utf8编码的文本。如果不转换，或者转换成其他编码格式，就会出现中文乱码。下面是我原来写的代码：//...
怎么使用PHP抓取网页中没有的内容。。 php
2019-03-12 16:58

回答 1 已采纳需求说的明白点，想要干啥？抓取内容的连接返回的是json的数据
php抓取页面内容乱码,如何解决抓取乱码php网页的问题
2021-04-16 02:14

5G Sir的博客爬行乱码php网页的解决方案:1。使用“mbconvertencoding”来转换编码；2.设置并添加“curl _ setopt ...推荐:“PHP视频教程”Php抓取乱码页面抓取页面时，像这样乱码字符的解决方案如下1.转换编码str=mbconvertenco...
【python】 BeautifulSoup 抓取网页文本乱码
2020-09-29 21:18

万独孤的博客不用response.text，改用response.content response = requests.get(url) bs = BeautifulSoup(response.content, "lxml")
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

网页中的文本抓取下来是乱码，怎么解析？

3条回答 默认 最新

悬赏问题

3条回答默认最新