Qwerthd 2023-03-07 17:40 采纳率: 71.1%
浏览 20
已结题

关于#python#的问题,如何解决?

python爬虫遇字符识别失败问题
就是我想将爬到的数据p.text写入文件中,它报错 了

img


对于字符转换这一块还是搞不太清除


import requests
from bs4 import  BeautifulSoup
import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
# -------------------------------------------------------------历届中国女子排球联赛获奖名单-----------------------------------------------------------------------------------

#UA伪装
headers={"user-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) A" "ppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
}
#1.指定爬虫网页网址
url="http://www.volleychina.org/hv/2023-01-19/doc-imyaterk5587468.shtml"

# 2.对URL发起请求
requests.get(url=url,headers=headers)

# 3.获取响应数据
response = requests.get(url=url,headers=headers)
page_txt = response.content.decode('utf-8')
# page_txt.encoding='utf_8'

# 4数据解析
#通过BeautifulSoup解析数据
#① 实例化BeautifulSoup对象,将页面数据加载至对象,Fe_Re_soup为女性获奖对象
Fe_Re_soup=BeautifulSoup(page_txt,'lxml')
#② 解析url标签属性等
#将div<detail-context>标签下所有的p标签提取
p_list=Fe_Re_soup.select('.detail-context>p')

#提取所有p标签下span标签里的内容,注p类型为bs4.element.Tag
f=open('女排球员获奖数据.txt','w+')
for p in p_list:
    print(type (p.text))
    f.write(p.text)
    print('over')
# 5.存储数据
  • 写回答

3条回答 默认 最新

  • 「已注销」 2023-03-07 18:06
    关注

    “Devil组”引证GPT后的撰写:
    这个错误是由于文件写入时使用的默认编码为 'gbk',而 p.text 中含有无法被 'gbk' 编码的字符。可以将文件的编码格式改为 'utf-8',这样就可以处理中文和其他特殊字符。在打开文件时,指定 'utf-8' 编码格式即可:

    f = open('女排球员获奖数据.txt', 'w+', encoding='utf-8')
    
    
    

    这样就可以正常将 p.text 内容写入文件了。同时,也不需要在代码中添加 sys.stdout 和 io 模块的编码转换语句,因为这些操作只影响标准输出流的编码,而不影响文件输出流的编码。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 3月16日
  • 已采纳回答 3月8日
  • 创建了问题 3月7日

悬赏问题

  • ¥15 流式socket文件传输答疑
  • ¥20 keepalive配置业务服务双机单活的方法。业务服务一定是要双机单活的方式
  • ¥50 关于多次提交POST数据后,无法获取到POST数据参数的问题
  • ¥15 win10,这种情况怎么办
  • ¥15 如何在配置使用Prettier的VSCode中通过Better Align插件来对齐等式?(相关搜索:格式化)
  • ¥100 在连接内网VPN时,如何同时保持互联网连接
  • ¥15 MATLAB中使用parfor,矩阵Removal的有效索引在parfor循环中受限制
  • ¥20 Win 10 LTSC 1809版本如何无损提升到20H1版本
  • ¥50 win10 LTSC 虚拟键盘不弹出
  • ¥15 寻找能匹配的液晶显示屏。