# 检测文件编码
file_encoding = detect_encoding(file_path)
print(f"读取到的文件编码为: {file_encoding}")
# 尝试使用读取到的编码格式打开文件
try:
with open(file_path, 'r', encoding=file_encoding) as file:
content = file.read()
print(f"成功使用读取到的 {file_encoding} 编码格式打开文件。\n")
print(content)
final_encoding = file_encoding
except Exception as e:
print(f"尝试使用读取到的 {file_encoding} 编码格式时出现错误:{e}")
final_encoding = None
# 常见的中文编码格式
common_encodings = ['utf-8', 'gbk', 'gb2312', 'gb18030']
for encoding in common_encodings:
if encoding != file_encoding: # 如果常见编码与读取到的编码不一致,则尝试使用该编码打开文件
try:
with open(file_path, 'r', encoding=encoding) as file:
content = file.read()
print(f"成功使用常见的 {encoding} 编码格式打开文件。\n")
print(content)
final_encoding = encoding
break # 如果成功读取文件,则停止尝试其他编码格式
except Exception as e:
print(f"尝试使用 {encoding} 编码格式时出现错误:{e}")
# 输出最终使用的是什么编码打开了文件
if final_encoding:
print(f"最终使用的是 {final_encoding} 编码格式打开文件。")
else:
print("无法打开文件,请检查文件是否损坏或编码格式是否正确。")
# 输出读取到的文件编码
print(f"读取到的文件编码为: {file_encoding}")
import os
import jieba.posseg as pseg
# 分词并提取动词及对应的动词英文名(缩写)
def extract_verbs(text):
words = pseg.cut(text)
verb_dict = {}
for word, flag in words:
if flag.startswith('v'): # 判断词性是否为动词
verb_dict[word] = get_verb_abbreviation(word)
return verb_dict
# 获取动词的英文名(缩写)
def get_verb_abbreviation(verb):
# 在这里你可以编写一个函数来获取动词的英文名(缩写)
# 这里只是一个示例,具体的获取方法可能需要根据实际情况来设计
# 这里暂时使用一个简单的示例来返回一个固定的缩写
# 你可以根据你的实际需求来修改这个函数
return "VB"
# 将动词及对应的动词英文名(缩写)按照指定的命名规则进行命名
def rename_verbs(verb_dict):
renamed_verbs = {}
for verb, abbreviation in verb_dict.items():
renamed_verb = f"{verb}_{abbreviation}"
renamed_verbs[verb] = renamed_verb
return renamed_verbs
# 主处理函数
def process_text(text):
# 提取动词及对应的动词英文名(缩写)
verb_dict = extract_verbs(text)
# 将动词进行重命名
renamed_verbs = rename_verbs(verb_dict)
return renamed_verbs
# 测试
if __name__ == "__main__":
# 测试文本
text = "我说不要什么V 什么n 我看不懂"
# 处理文本
renamed_verbs = process_text(text)
# 输出结果
for verb, renamed_verb in renamed_verbs.items():
print(f"{verb}: {renamed_verb}")
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
动词+动词英文名(缩写)
我说
不要什么V 什么n
我看不懂
命名规则:中文+英语(英语缩写)
动词+动词英文名(缩写)
我说
不要什么V 什么n
我看不懂
命名规则:中文+英语(英语缩写)