来个人，分词结果，和命名问题


# 检测文件编码
file_encoding = detect_encoding(file_path)
print(f"读取到的文件编码为： {file_encoding}")

# 尝试使用读取到的编码格式打开文件
try:
    with open(file_path, 'r', encoding=file_encoding) as file:
        content = file.read()
        print(f"成功使用读取到的 {file_encoding} 编码格式打开文件。\n")
        print(content)
        final_encoding = file_encoding
except Exception as e:
    print(f"尝试使用读取到的 {file_encoding} 编码格式时出现错误：{e}")
    final_encoding = None

    # 常见的中文编码格式
    common_encodings = ['utf-8', 'gbk', 'gb2312', 'gb18030']

    for encoding in common_encodings:
        if encoding != file_encoding:  # 如果常见编码与读取到的编码不一致，则尝试使用该编码打开文件
            try:
                with open(file_path, 'r', encoding=encoding) as file:
                    content = file.read()
                    print(f"成功使用常见的 {encoding} 编码格式打开文件。\n")
                    print(content)
                    final_encoding = encoding
                    break  # 如果成功读取文件，则停止尝试其他编码格式
            except Exception as e:
                print(f"尝试使用 {encoding} 编码格式时出现错误：{e}")

# 输出最终使用的是什么编码打开了文件
if final_encoding:
    print(f"最终使用的是 {final_encoding} 编码格式打开文件。")
else:
    print("无法打开文件，请检查文件是否损坏或编码格式是否正确。")

# 输出读取到的文件编码
print(f"读取到的文件编码为： {file_encoding}")


import os
import jieba.posseg as pseg

# 分词并提取动词及对应的动词英文名（缩写）
def extract_verbs(text):
    words = pseg.cut(text)
    verb_dict = {}
    for word, flag in words:
        if flag.startswith('v'):  # 判断词性是否为动词
            verb_dict[word] = get_verb_abbreviation(word)
    return verb_dict

# 获取动词的英文名（缩写）
def get_verb_abbreviation(verb):
    # 在这里你可以编写一个函数来获取动词的英文名（缩写）
    # 这里只是一个示例，具体的获取方法可能需要根据实际情况来设计
    # 这里暂时使用一个简单的示例来返回一个固定的缩写
    # 你可以根据你的实际需求来修改这个函数
    return "VB"

# 将动词及对应的动词英文名（缩写）按照指定的命名规则进行命名
def rename_verbs(verb_dict):
    renamed_verbs = {}
    for verb, abbreviation in verb_dict.items():
        renamed_verb = f"{verb}_{abbreviation}"
        renamed_verbs[verb] = renamed_verb
    return renamed_verbs

# 主处理函数
def process_text(text):
    # 提取动词及对应的动词英文名（缩写）
    verb_dict = extract_verbs(text)
    # 将动词进行重命名
    renamed_verbs = rename_verbs(verb_dict)
    return renamed_verbs

# 测试
if __name__ == "__main__":
    # 测试文本
    text = "我说不要什么V 什么n 我看不懂"
    # 处理文本
    renamed_verbs = process_text(text)
    # 输出结果
    for verb, renamed_verb in renamed_verbs.items():
        print(f"{verb}: {renamed_verb}")

jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个
jieba.posseg.cut 用这个


动词+动词英文名（缩写）
我说
不要什么V 什么n
我看不懂

命名规则：中文+英语（英语缩写）

动词+动词英文名（缩写）

我说
不要什么V 什么n
我看不懂

命名规则：中文+英语（英语缩写）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赵灵越 2024-04-20 17:50
关注
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

自然语言处理-概率最大中文分词
2024-01-23 16:06

通过实践项目，他们将能够掌握如何利用编程工具解决实际问题，提升对自然语言处理的理解和应用能力。总之，“概率最大中文分词”涉及到了自然语言处理的核心技术，包括Python编程、统计模型构建、词频分析以及实际...
一个基于Python和正则表达式实现的高性能多语言词法分析器与语法解析工具库_支持中文英文编程语言源代码的自动分词词性标注命名实体识别依存句法分析情感分析关键词提取文本分类信息检索.zip
2025-12-10 16:36

此外，该工具库还特别针对编程语言源代码提供了自动分词和词性标注等功能，这对于代码理解、自动注释、代码重构等软件工程任务具有重要的辅助作用。工具库的实现基于Python这一广泛使用的编程语言，它不仅有着丰富...
基于Python和Java的HanLP中文自然语言处理设计源码
2024-10-02 11:56

这个系统融合了Python和Java两种编程语言，成功集成了HanLP库，提供了强大的中文处理能力。整个系统由614个文件构成，包括442个Python脚本和149个Markdown文档，这表明其功能的广泛性和文档的丰富性。此外，它还包含...
【全国计算机等级考试Python二级：真题19】基于Python编程语言的知识点解析：涵盖数据类型、控制结构、函数与文件操作的综合应用设计
2025-09-05 17:10

内容概要：本文档为一份Python编程语言的真题练习试卷，包含40道选择题和6道编程操作题，涵盖计算机基础、Python语法、数据类型、程序控制结构、函数、组合数据类型、文件操作、数据维度处理以及第三方库使用等内容...
知识图谱构建中的实体识别实验-多种中文分词工具的人物实体抽取对比分析
2025-01-11 21:20

适合人群：从事知识图谱研究、对中文自然语言处理尤其是命名实体识别感兴趣的学术研究人员，或者是具有一定编程基础并且对文本分析有需求的技术开发者。使用场景及目标：本篇内容不仅能够帮助使用者评估现有的实体...
基于词典与Bi-LSTM+CRF的中文分词及命名实体识别模型构建与批量测试实现
2025-10-09 21:14

构建一个用于命名实体识别的模型，除了实现基础预测功能外，还需具备对测试数据集进行批量处理并将预测结果存储至文件的能力。中文分词是指将连续的中文字符序列划分为有意义的词汇单元。这一技术构成了中文文本分析...
nlpir-中文分词工具和代码
2018-04-13 16:28

《nlpir-中文分词工具和代码》是张华平老师提供的一款强大的中文处理工具，主要功能在于中文分词和命名实体识别。在自然语言处理（NLP）领域，中文分词是基础步骤，它将连续的汉字序列切分成具有语义的词汇单元，为...
基于Python的电子病历实体命名识别NERuselocal设计源码
2024-10-04 03:15

NERuselocal系统是基于Python编程语言开发的，这意味着它具有Python语言简洁易读的特点，并且能够利用Python丰富的第三方库资源，如自然语言处理库NLTK（Natural Language Toolkit）、数据处理库Pandas和机器学习库...
基于HanLP自然语言处理包的elasticsearch分词器.zip
2022-05-07 11:23

总的来说，这个基于HanLP的Elasticsearch分词器项目是一个很好的学习资源，它展示了如何将先进的自然语言处理技术融入大数据搜索引擎中，以提升信息检索的准确性和效率。对于大二学生来说，这不仅是一个理论与实践相...
基于Python深度学习的Jiagu自然语言处理工具源码
2024-10-03 12:44

Python作为一种高级编程语言，在数据科学和人工智能领域广泛应用，因其简洁、易读、功能强大等特点深受开发者喜爱。基于Python的深度学习自然语言处理工具“Jiagu”，集成了多项先进技术和算法，旨在为用户提供高效...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月19日

来个人，分词结果，和命名问题

6条回答 默认 最新

问题事件

6条回答默认最新