python爬取文档乱码

# —*- codeing = utf-8 -*-
# @Time : 2021/3/8 6:49
# @File :05. bs4实例——三国演义.py
# @Software : PyCharm
import requests
from bs4 import BeautifulSoup

if __name__ == '__main__':
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 5.1; rv:52.0) Gecko/20100101 Firefox/52.0'
    }

    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    page_text = requests.get (url=url, headers=headers).text
    
    # 在首页中解析出章节的标题和详情页的uil
    # 1 示例化BeatifulSoup对象，需要将源码数据加载到该对象中
    soup = BeautifulSoup (page_text, 'lxml')
    # 解析获取章节标题和详情页的url
    li_lest = soup.select ('.book-mulu > ul > li')
    fp = open ('./三国演义.txt', 'w', encoding='utf-8')
    for li in li_lest :
        title = li.a.string
        detail_url = 'https://www.shicimingju.com/' + li.a['href']
        # 对详情页发起请求，解析章节内容
        detail_page_text = requests.get (url=detail_url, headers=headers).text
        #
        delattr_soup = BeautifulSoup (detail_page_text, 'lxml')
        div_tag = delattr_soup.find ('div', class_='chapter_content')
        #
        content = div_tag.text
        #
        fp.write (title + ':' + content + '/n')
        print (title, '爬取成功')

到底哪里出现问题了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
coagenth 2021-03-08 17:58
关注
对于中文编码的文本提取，在获得response对象后，注意不是字符串，你需要将.text移动到soup语句，加上r.encoding=r.apparent_encoding，才不会出现乱码。

page_text = requests.get(url=url, headers=headers)

    page_text.encoding=page_text.apparent_encoding

    # 在首页中解析出章节的标题和详情页的uil

    # 1 示例化BeatifulSoup对象，需要将源码数据加载到该对象中

    soup = BeautifulSoup(page_text.text, 'lxml')

后面也作出如此更改，就行了

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python爬取基金净值导出CSV文件后中文显示乱码 python 有问必答
2022-02-14 15:47

回答 4 已采纳指定read_html的编码。 import pandas as pd import csv for i in range(1,2): url = 'https://fundf10.ea
Python解决乱码问题 python
2021-12-14 01:14

回答 2 已采纳这种情况应该用:html=resp.content.decode("gbk")
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
pychon中爬取网页信息，输出时乱码问题，求解决 python 开发语言有问必答爬虫
2022-01-08 21:33

回答 1 已采纳你requests 读取页面文件的编码不对 ,用 res.encoding='utf-8'或res.encoding='gbk'设置下读取页面文件用的编码, 再获取res.text即可，比如 res=
关于python json的问题 list python
2021-06-14 13:14

回答 4 已采纳 \x 什么的就是汉字啊，一般会自动转换吧。如果需要手动转换的话： string = b'\xe8\xa7\xa3\xe7\xa0\x81' print(string.decode()) # Re
python爬取内容乱码_Python爬取网站返回的内容为乱码解决方法
2021-03-06 16:06

SUN也行的博客 1、爬取某网站内容时，返回的结果为乱码，如图：2、写在前面的解释Requests会基于HTTP头部响应的编码做出有根据的推测，当访问r.text时，Requests会使用其推测的文本编码。查看网页返回的字符集类型：r.apparent_...
python词云出现KeyError问题 python 有问必答
2021-03-19 16:53

回答 3 已采纳就代码中词云图问题，一是代码中wordlist是一个生成器对象，需要遍历出来，文本分割是全分割，其中有很多标点符号和其他字符不是中文，需要对其进行筛选剔除。wl=' '.join([x for x i
保存到文件乱码和没有那么条数据 python 爬虫
2021-11-23 10:33

回答 3 已采纳你这是爬取了多少个页面呀,我跑了好久,记得采纳修改了你数据提取后的多余回车和乱码现象,还有提取的数据有些字符是异形字符,如果你想要显示,建议换种方法存数据,修改了存文件的函数,具体哪些地方你再看看 i
学习pythone爬虫爬取免费简历为什么下载到文件夹的文件不是rar格式 python 有问必答爬虫
2021-12-29 15:40

回答 2 已采纳 resume_path = 'resume/'+ resume_name+".rar"#后缀加上
Python爬取数据并实现可视化代码解析
2020-09-16 10:09

总的来说，Python爬取数据和可视化的过程涉及到了requests库的HTTP请求，openpyxl库的Excel数据读取，以及matplotlib库的图表绘制。这些技能对于数据科学家和数据分析师来说，是日常工作中不可或缺的工具。通过实践...
Pycharm爬取小说保存到txt with open路径错误 python
2021-12-16 22:44

回答 1 已采纳 # print(book) print(file_name+html_title[i]+'.txt') # 先确认你的文件名是否是你想要的名字 with open(file_name+html_ti
python爬取音乐是乱码_Python爬取中文页面的时候出现的乱码问题
2020-12-02 22:11

weixin_39802519的博客如果在头部信息中指定了UTF-8那么再python代码中读取页面信息的时候，就需要指定读取的编码方式：response.read().decode('utf-8')二、把中文数据写入到文件的时候python默认的是按照ACSII的编码往外写，所以中文...
用 Python 爬取网页 PDF 和文档
2023-10-02 22:00

mycsdn5698的博客注意：ANSI 编码的文本在 kindle 打开会有部分乱码，UTF-8 编码的不会。缺点：str(news_context) 的使用导致 div 标签出现，且。获取标签的某个属性，例如 a 标签的 href 属性，代码如下。如果标签属性较少，则可以...
没有解决我的问题, 去提问

悬赏问题

¥15 mySQL5.7.34安装遇到的问题
¥15 结构功能耦合指标计算
¥20 visual studio中c语言用ODBC链接SQL SERVER
¥50 AI大模型精调（百度千帆、飞浆）
¥15 非科班怎么跑代码？如何导数据和调参
¥15 福州市的全人群死因监测点死亡原因报表
¥15 Altair EDEM中生成一个颗粒，并且各个方向没有初始速度
¥15 系统2008r2 装机配置推荐一下
¥15 悬赏Python-playwright部署在centos7上
¥15 psoc creator软件有没有人能远程安装啊

python爬取文档乱码

3条回答 默认 最新

悬赏问题

3条回答默认最新