古巷的猫 2024-09-25 11:52 采纳率: 70.8%
浏览 5
已结题

爬出的网页内容是乱码

用python爬出的网页内容是乱码的怎么回事,该怎么改呀求告知

import requests
from bs4 import BeautifulSoup

def get_novel_chapter():
    root_url = 'https://fanqienovel.com/page/7377020139255893054?enter_from=search'
    response = requests.get(root_url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')
    data = []
    for chapter in soup.find_all('div', class_='chapter-item'):
        link = chapter.find('a')
        if not link:
            continue
        data.append(("https://fanqienovel.com%s"%link['href'],link.get_text()))
    return data

def get_chapter_content(url):
    response = requests.get(url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup.find('div', class_='muye-reader-content noselect').get_text()


for chapter in get_novel_chapter():
    url, title = chapter
    with open("%s.txt"%title,"w",encoding='utf-8') as fout:
        fout.write(get_chapter_content(url))
    break

输出的结果是乱码的

img

  • 写回答

2条回答 默认 最新

  • 九月镇灵将 2024-09-25 16:24
    关注

    这个不是响应数据编码问题,而是某茄小说有字体反爬,你需要拿到对应的字体文件得到字体映射字典,然后一一映射才能拿到正常的文本

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 9月26日
  • 已采纳回答 9月26日
  • 创建了问题 9月25日

悬赏问题

  • ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
  • ¥50 浦育平台scratch图形化编程
  • ¥20 求这个的原理图 只要原理图
  • ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
  • ¥20 微信的店铺小程序如何修改背景图
  • ¥15 UE5.1局部变量对蓝图不可见
  • ¥15 一共有五道问题关于整数幂的运算还有房间号码 还有网络密码的解答?(语言-python)
  • ¥20 sentry如何捕获上传Android ndk 崩溃
  • ¥15 在做logistic回归模型限制性立方条图时候,不能出完整图的困难
  • ¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动,如何解决?