关于#python#的问题，如何解决？

python爬虫遇字符识别失败问题
就是我想将爬到的数据p.text写入文件中，它报错了

对于字符转换这一块还是搞不太清除


import requests
from bs4 import  BeautifulSoup
import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
# -------------------------------------------------------------历届中国女子排球联赛获奖名单-----------------------------------------------------------------------------------

#UA伪装
headers={"user-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) A" "ppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
}
#1.指定爬虫网页网址
url="http://www.volleychina.org/hv/2023-01-19/doc-imyaterk5587468.shtml"

# 2.对URL发起请求
requests.get(url=url,headers=headers)

# 3.获取响应数据
response = requests.get(url=url,headers=headers)
page_txt = response.content.decode('utf-8')
# page_txt.encoding='utf_8'

# 4数据解析
#通过BeautifulSoup解析数据
#① 实例化BeautifulSoup对象，将页面数据加载至对象,Fe_Re_soup为女性获奖对象
Fe_Re_soup=BeautifulSoup(page_txt,'lxml')
#② 解析url标签属性等
#将div<detail-context>标签下所有的p标签提取
p_list=Fe_Re_soup.select('.detail-context>p')

#提取所有p标签下span标签里的内容，注p类型为bs4.element.Tag
f=open('女排球员获奖数据.txt','w+')
for p in p_list:
    print(type (p.text))
    f.write(p.text)
    print('over')
# 5.存储数据

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-03-07 18:06
关注
“Devil组”引证GPT后的撰写：
这个错误是由于文件写入时使用的默认编码为 'gbk'，而 p.text 中含有无法被 'gbk' 编码的字符。可以将文件的编码格式改为 'utf-8'，这样就可以处理中文和其他特殊字符。在打开文件时，指定 'utf-8' 编码格式即可：

f = open('女排球员获奖数据.txt', 'w+', encoding='utf-8')

这样就可以正常将 p.text 内容写入文件了。同时，也不需要在代码中添加 sys.stdout 和 io 模块的编码转换语句，因为这些操作只影响标准输出流的编码，而不影响文件输出流的编码。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

关于#Python#的问题，如何解决？ python
2023-03-18 16:36

回答 3 已采纳先求和再除个数代码如下 x = [1, 3.5, 2.7, 6, 4.8] # 定义向量x sum_x = 0 # 初始化变量sum_x，用于保存所有元素的和 for i in x:
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
关于#python#的题目，请各位专家解答！ c语言 java python 有问必答
2021-10-06 18:48

回答 1 已采纳 9 class class1(): def __init__(self,num): self.num=num def function1(self): r
1.Python从入门到精通—Python编程语言简介
2024-05-05 17:57

青花科技的博客 Python是一种高级编程语言，由Guido van Rossum于1989年底发明。Python在设计时注重代码的可读性和简洁性，因此被称为“可读性强的语言”。它是一种解释型语言，可以在多个操作系统上运行，包括Windows、Linux和...
用python语言解决字典问题 python
2021-11-28 22:40

回答 1 已采纳 d = {} with open('words.txt', 'r', encoding='utf-8') as f: for i in f.read().split('\n'):
各位大佬，这个问题怎样用python语言解决哇？ python
2019-11-02 10:36

回答 1 已采纳 ``` # -*- coding: UTF-8 -*- for x in range(0, 9): for y in range(0, 9): for z in range(0, 9
运用python语言编写下面问题 python
2021-11-11 19:55

回答 1 已采纳 songs = "你好我不知道" sum = 0 for i in range(len(songs)): if(songs[i]!=" "): sum += 1
用python解决百钱买百鸡问题
2023-09-04 00:00

算法与编程之美的博客 1 问题在《算经》中有一道著名的“百钱买百鸡”的问题：鸡翁一，值钱五；鸡母一，值钱三；鸡雏三，值钱一；百钱买百鸡，则翁、母、雏各几何？2 方法创建三个变量 cock，hen，chick钱的条件：c o c k × 5 + h e n ×...
python代码问题 python
2022-12-23 22:56

回答 1 已采纳你只要看print语句在哪里就明白了呀，你的fun函数首先就被print调用了一下，给了maxval初始值1，然后在dfs里，print被调用了两次，然后每次递归dfs，都会print两次，所以结果是
如何学好一门编程语言 python
2023-04-24 09:11

回答 1 已采纳 import turtle # 画布大小和坐标轴范围 size = 500 min_val = -10 max_val = 10 # 设置turtle画笔的初始位置和方向 turtle.penu
Python语言支持向量机用遗传算法优化 python 机器学习
2023-03-10 23:53

回答 9 已采纳该回答引用ChatGPT 如有疑问，可以回复我！ import pandas as pd from sklearn.model_selection import train_test_split f
python语言有什么特点?python应用领域有哪些?
2020-06-19 17:31

学术严谨的博客随着人工智能、大数据的发展，各大企业都开始抢夺市场，而python语言作为该领域的首选语言，广受大家的喜欢，现在越来越多人都想要学习python，为什么呢? python语言有什么特点? 1、简洁高效：简单大方、开发效率高...
人工智能开发语言 python,python人工智能编程教程
2022-10-10 15:18

快乐的小肥熊的博客 Python作为人工智能首选编程语言，随着人工智能时代的到来，Python开发效率非常高，Python有非常强大的第三方库，基本上你想通过计算机实现任何功能，Python官方库里都有相应的模块进行支持，直接下载调用后，在基础...
python属于哪类型的编程语言有哪些_python是什么类型的编程语言？
2021-02-10 10:09

张北晨的博客 Python是一种计算机程序设计语言，是一种面向对象的动态、强类型脚本语言(解释型语言)。强类型：不允许不同类型相加动态类型：不使用显示数据类型声明，且确定一个变量的类型是在第一次给它赋值的时候脚本语言：一般...
学Python该看什么书？所有方向的精华好书推荐，20年老程序员倾囊相授
2021-07-21 02:39

退休的龙叔的博客 Python所有方向性价比最高的书籍推荐！
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月7日

悬赏问题

¥15 Stata链式中介效应代码修改
¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错

关于#python#的问题，如何解决？

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新