爬虫程序返回值只有中文是乱码

刚刚学完bs4想试一下爬取网络小说，但试了好久都是那两个错误，实在找不到什么原因
一个就是输出标签的时候中文乱码
还有一个：

  File "", line 27, in <module>
  content = div_tag.text
  AttributeError: 'NoneType' object has no attribute 'text'

import requests
from bs4 import BeautifulSoup
import lxml
#爬取所有的章节标题和章节内容https://www.xbiquge.la/13/13959/
if __name__ == '__main__':
    url = 'https://www.xbiquge.la/13/13959/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    page_text = requests.get(url=url,headers=headers).text
    #在首页中解析章节标题和详情页的url
    #实例化BeautifulSoup对象
    soup = BeautifulSoup(page_text,'lxml')
    #print(soup)
    #解析章节标题
    dd_list = soup.select('dd')
    print(dd_list)
    fp = open('shengxu.txt','w',encoding='utf-8')
    for dd in dd_list:
        title = dd.a.string
        detail_url = 'https://www.xbiquge.la/' + dd.a['href']
        #对详情页发起请求，解析章节内容
        detail_data_text = requests.get(url=detail_url,headers=headers).text
        #解析出详情页中的内容
        detail_soup = BeautifulSoup(detail_data_text,'lxml')
        div_tag = detail_soup.find('dic',id='content')
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'！！！')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

考古学家lx(李玺) python领域优质创作者 2021-09-15 14:45

关注

帮你修改了下


import requests
from bs4 import BeautifulSoup
#爬取所有的章节标题和章节内容
# https://www.xbiquge.la/13/13959/
if __name__ == '__main__':
    url = 'https://www.xbiquge.la/13/13959/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    page_text = requests.get(url=url,headers=headers).content.decode('utf-8')
    #在首页中解析章节标题和详情页的url
    #实例化BeautifulSoup对象
    soup = BeautifulSoup(page_text,'lxml')
    #print(soup)
    #解析章节标题
    dd_list = soup.select('dd')
    print(dd_list)
    fp = open('shengxu.txt','w',encoding='utf-8')
    for dd in dd_list:
        title = dd.a.string
        detail_url = 'https://www.xbiquge.la/' + dd.a['href']
        #对详情页发起请求，解析章节内容
        detail_data_text = requests.get(url=detail_url,headers=headers).text
        #解析出详情页中的内容
        detail_soup = BeautifulSoup(detail_data_text,'lxml')
        div_tag = detail_soup.find('div',id='content')
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'！！！')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
【中文乱码】爬虫requests返回值中文乱码问题处理
2023-01-03 14:28

宋建国的博客【代码】【中文乱码】爬虫requests返回值中文乱码问题处理。
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python 中post请求返回值是500 json python
2022-07-15 17:25

回答 2 已采纳我是把这两个删了就好了'keyfrom': 'fanyi.web','action': 'FY_BY_REALTlME'
Python request中文乱码问题解决方案
2020-12-16 19:26

本篇文章将深入探讨这个问题，以及如何解决Python `requests`库在获取中文网页时的乱码问题。首先，我们需要理解`requests.get()`函数返回的两种类型数据：`r.text`和`r.content`。`r.text`返回的是Unicode类型的...
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python，爬虫，为什么会出现乱码 python
2023-01-20 21:41

回答 2 已采纳如果要解决乱码问题，可以修改requests.get().text语句，如下所示： import requests resp = requests.get("https://www.baidu.com
python爬虫程序错误 python
2023-04-14 16:00

回答 2 已采纳报的是f{'....'}的错误。。。应该改为mldm+'-'+yjxs....+....+.....+'.csv'
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要替换链接、文件，就可以轻松完成。并且这些几个实用技巧，简直是 ...
解决在python 爬虫时爬取的网页中文乱码问题！
2021-09-26 16:31

妙齐光的博客我们平常在爬虫过程中经常会遇到爬取的网页内容乱码的问题，我们知道肯定是编码的问题。一般情况下，网页编码都是UTF-8形式，但是有时候有一些例外，有可能会是GBK的编码方式。解决中文乱码问题：一. 查看网页编码...
python爬虫request乱码_Python 爬虫使用Requests获取网页文本内容中文乱码
2021-03-06 16:34

极品小神蛋的博客 1. 问题使用Requests去获取网页文本内容时，输出的中文出现乱码。2. 乱码原因爬取的网页编码与我们爬取编码方式不一致造成的。如果爬取的网页编码方式为utf8，而我们爬取后程序使用ISO-8859-1编码方式进行编码并输出...
Python：爬虫乱码
2022-10-14 01:54

凉西瓜的博客总结三、Python操作编解码 Python中的bytes与str Python演示四、爬虫、保存数据过程 1.Response --> str （1）HTTP Response对象（2）代码（3）乱码案例 2. str --> 本地 3. 本地 --> str 一、预备知识进制十...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月15日

悬赏问题

¥100 需要跳转番茄畅听app的adb命令
¥50 寻找一位有逆向游戏盾sdk 应用程序经验的技术
¥15 请问有用MZmine处理 “Waters SYNAPT G2-Si QTOF质谱仪在MSE模式下采集的非靶向数据” 的分析教程吗
¥50 opencv4nodejs 如何安装
¥15 adb push异常 adb: error: 1409-byte write failed: Invalid argument
¥15 nginx反向代理获取ip，java获取真实ip
¥15 eda：门禁系统设计
¥50 如何使用js去调用vscode-js-debugger的方法去调试网页
¥15 376.1电表主站通信协议下发指令全被否认问题
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证

爬虫程序返回值只有中文是乱码

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新