懷念、曾经 2022-07-22 10:28 采纳率: 100%
浏览 45
已结题

读取文件时,能不能跳过不能编码的字符继续读取?(语言-python)

最近在学爬虫爬小说,遇到个网页里面有一个乱码。它网页是gb2312编码,我用gb2312、gbk、utf-8都试了一遍识别不了。因为我是在整页整页的爬文字,一报错就是一章内容没下,就很难受。
想问问大家,有没有办法直接不管那个无法编码的字符,直接将提取的内容写入?
下载代码如下


#下载
async def download(url, name):
    async with semaphore:
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as reques:
                reques.encoding = 'gbk'
                page = bs4.BeautifulSoup(await reques.text(), 'html.parser')
                div = page.find('div', class_="read_chapterDetail")
                p = div.find_all('p')
                # 打开文件,打开方式,数据为二进制
                with open(f'{name}.txt', mode='wb') as f:
                    for i in p:
                        text = i.text + '\n'
                        f.write(text.encode('utf-8'))
                print(f'{name}下载完成!')
  • 写回答

4条回答 默认 最新

  • 快乐小土狗 2022-07-22 10:43
    关注

    可以啊,你不指定就是了呀,只是可能你保存的小说是乱码的

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 7月28日
  • 已采纳回答 7月22日
  • 创建了问题 7月22日

悬赏问题

  • ¥20 为什么安装CSiBridge时出现了这个问题,尝试了很多方法都不行,求详细操作步骤?
  • ¥15 鼠标右键,撤销删除 复制 移动,要怎样删除
  • ¥15 使用MATLAB进行余弦相似度计算加速
  • ¥15 服务器安装php5.6版本
  • ¥15 我想用51单片机和数码管做一个从0开始的计数表 我写了一串代码 但是放到单片机里面数码管只闪烁一下然后熄灭
  • ¥20 系统工程中,状态空间模型中状态方程的应用。请猛男来完整讲一下下面所有问题
  • ¥15 我想在WPF的Model Code中获取ViewModel Code中的一个参数
  • ¥15 arcgis处理土地利用道路 建筑 林地分类
  • ¥20 使用visual studio 工具用C++语音,调用openslsx库读取excel文件的sheet问题
  • ¥100 寻会做云闪付tn转h5支付链接的技术