懷念、曾经 2022-07-22 10:28 采纳率: 100%
浏览 45
已结题

读取文件时,能不能跳过不能编码的字符继续读取?(语言-python)

最近在学爬虫爬小说,遇到个网页里面有一个乱码。它网页是gb2312编码,我用gb2312、gbk、utf-8都试了一遍识别不了。因为我是在整页整页的爬文字,一报错就是一章内容没下,就很难受。
想问问大家,有没有办法直接不管那个无法编码的字符,直接将提取的内容写入?
下载代码如下


#下载
async def download(url, name):
    async with semaphore:
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as reques:
                reques.encoding = 'gbk'
                page = bs4.BeautifulSoup(await reques.text(), 'html.parser')
                div = page.find('div', class_="read_chapterDetail")
                p = div.find_all('p')
                # 打开文件,打开方式,数据为二进制
                with open(f'{name}.txt', mode='wb') as f:
                    for i in p:
                        text = i.text + '\n'
                        f.write(text.encode('utf-8'))
                print(f'{name}下载完成!')
  • 写回答

4条回答 默认 最新

  • 快乐小土狗 2022-07-22 10:43
    关注

    可以啊,你不指定就是了呀,只是可能你保存的小说是乱码的

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 7月28日
  • 已采纳回答 7月22日
  • 创建了问题 7月22日

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料