分词编码，如果有成千上万种格式，这个代码不能词性划分？

读取小说文件夹 自动读取编码 自动添加编码格式 自动转格式 遇到的问题

import os
import jieba.posseg as pseg
import chardet
import codecs

# 文件夹路径
source_folder = "/storage/emulated/0/文件/文本处理/"
output_folder = "/storage/emulated/0/文件/分词处理/"
merged_file = "/storage/emulated/0/文件/合并后文本.txt"

# 创建存储分词后文本的文件夹
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 合并文本
def merge_text():
    merged_text = ""
    for filename in os.listdir(source_folder):
        if filename.endswith('.txt'):
            try:
                # 读取文本文件的编码并转换为 UTF-8 编码
                with open(os.path.join(source_folder, filename), 'rb') as f:
                    raw_data = f.read()
                    encoding = chardet.detect(raw_data)['encoding']
                with codecs.open(os.path.join(source_folder, filename), 'r', encoding=encoding) as f:
                    text = f.read()
                    merged_text += text + '。'  # 在每个文本末尾添加一个句号，表示一个句子结束
            except Exception as e:
                print(f"Error reading file {filename}: {e}")

    with open(merged_file, 'w', encoding='utf-8') as f:
        sentences = merged_text.split('。')
        for sentence in sentences:
            sentence = sentence.strip()
            if sentence:
                f.write(sentence + '。\n')

    print("文本合并并存储完成。")

# 分词并按词性划分
def segment_and_classify():
    # 读取合并后的文本内容
    with open(merged_file, 'r', encoding='utf-8') as f:
        text = f.read()

    # 分词并获取词性
    words_with_pos = pseg.cut(text)

    # 存储词性分类结果的字典
    pos_dict = {}

    # 将词语按照词性分类，并存储到不同的文件中
    for word, pos in words_with_pos:
        # 去除空格和换行符
        word = word.strip()
        if word:
            # 创建存储该词性词语的文件夹
            pos_folder = os.path.join(output_folder, pos)
            if not os.path.exists(pos_folder):
                os.makedirs(pos_folder)

            # 如果词性在字典中不存在，则创建一个列表存储对应的词语
            if pos not in pos_dict:
                pos_dict[pos] = []

            # 去重处理
            if word not in pos_dict[pos]:
                pos_dict[pos].append(word)

    # 将词语写入对应的文件中
    for pos, words in pos_dict.items():
        with open(os.path.join(output_folder, pos, f"{pos}.txt"), 'a', encoding='utf-8') as f:
            for word in words:
                f.write(word + '\n')

    print("分词并按词性划分存储完成。")

# 执行合并文本、转换为统一编码以及分词并按词性划分操作
merge_text()
segment_and_classify()


问了一上午机器人，给出的代码总是出错

/data/user/0/org.qpython.qpy/files/bin/qpy thon3.sh "/storage/emulated/0/qpython/小说 词性划分.py" && exit
python/小说词性划分.py" && exit          < 

Error reading file 异界潜规则.txt: 'gb2312 ' codec can't decode byte 0x84 in position  22924: illegal multibyte sequence
文本合并并存储完成。
Building prefix dict from the default dict ionary ...
Loading model from cache /storage/emulated /0/qpython/cache/jieba.cache
Loading model cost 2.227 seconds.
Prefix dict has been built successfully.
收起

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

赵灵越 2024-04-18 18:41

关注


import os
import jieba.posseg as pseg
import chardet
import codecs

# 文件夹路径
source_folder = "/storage/emulated/0/文件/文本处理/"
output_folder = "/storage/emulated/0/文件/分词处理/"
merged_file = "/storage/emulated/0/文件/合并后文本.txt"

# 创建存储分词后文本的文件夹
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

def convert_to_utf8(input_file, output_file):
    try:
        # 读取原始文件的编码
        with open(input_file, 'rb') as f:
            raw_data = f.read()
            encoding = chardet.detect(raw_data)['encoding']
            print(f"{input_file} 的编码是：{encoding}")
        # 如果编码是 GB2312，则尝试以 GB2312 编码打开文件并忽略错误字符
        if encoding == 'GB2312':
            text = raw_data.decode('GB2312', errors='ignore')
            encoding = 'GB2312 (processed)'
        else:
            # 使用原始编码格式打开文件并转换为 UTF-8 编码
            with codecs.open(input_file, 'r', encoding=encoding) as f:
                text = f.read()
        # 将内容写入新的 UTF-8 编码文件
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(text)
        print(f"转换文件 {input_file} 到 UTF-8 编码完成。")
    except Exception as e:
        print(f"转换文件 {input_file} 到 UTF-8 编码时发生错误：{e}")

def merge_text():
    merged_text = ""
    for filename in os.listdir(source_folder):
        if filename.endswith('.txt'):
            input_file = os.path.join(source_folder, filename)
            output_file = os.path.join(output_folder, f"{filename[:-4]}_utf8.txt")
            # 转换文件编码为 UTF-8
            convert_to_utf8(input_file, output_file)
            # 读取转换后的 UTF-8 编码文件内容
            with open(output_file, 'r', encoding='utf-8') as f:
                text = f.read()
                merged_text += text + '。'  # 在每个文本末尾添加一个句号，表示一个句子结束
    # 合并转换后的文本内容
    with open(merged_file, 'w', encoding='utf-8') as f:
        sentences = merged_text.split('。')
        for sentence in sentences:
            sentence = sentence.strip()
            if sentence:
                f.write(sentence + '。\n')
    print("文本合并并存储完成。")

def segment_and_classify():
    # 读取合并后的文本内容
    with open(merged_file, 'r', encoding='utf-8') as f:
        text = f.read()
    # 分词并获取词性
    words_with_pos = pseg.cut(text)
    # 存储词性分类结果的字典
    pos_dict = {}
    # 将词语按照词性分类，并存储到不同的文件中
    for word, pos in words_with_pos:
        # 去除空格和换行符
        word = word.strip()
        if word:
            # 创建存储该词性词语的文件夹
            pos_folder = os.path.join(output_folder, pos)
            if not os.path.exists(pos_folder):
                os.makedirs(pos_folder)
            # 如果词性在字典中不存在，则创建一个列表存储对应的词语
            if pos not in pos_dict:
                pos_dict[pos] = []
            # 去重处理
            if word not in pos_dict[pos]:
                pos_dict[pos].append(word)
    # 将词语写入对应的文件中
    for pos, words in pos_dict.items():
        with open(os.path.join(output_folder, pos, f"{pos}.txt"), 'a', encoding='utf-8') as f:
            for word in words:
                f.write(word + '\n')
    print("分词并按词性划分存储完成。")

# 执行合并文本、转换为统一编码以及分词并按词性划分操作
merge_text()
segment_and_classify()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

有知道这个代码错在哪里的吗？ python 有问必答
2021-06-28 08:13

回答 2 已采纳有两处错误要改，都是在最后一段代码里，第一，for i in txt.readlines():，txt已经是字符串，没有readlines方法。第二，循环中变量i也是字符串，它没有str属性方法，应该
怎么修改这个代码使其对所有行的分词的词频进行统计然后输出到一个表 python 开发语言
2023-03-15 21:00

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ,具体如下：你可以把循环遍历每一行的代码放到一个函数中，然后在外层再循环遍历每一行并调用这个函数。修改后的代码如下： import pandas as pd import
Python输入一句话，给文字分词，每个词给出近邻词，怎么写代码？ list python
2023-01-11 21:23

回答 1 已采纳这得用自然语言处理吧，简单的python操作应该没法实现
IT行业都有哪些职位，初学者如何选择才能够快速进入这个行业？
2019-05-14 14:54

IT修真院的博客【本人性格不好，被惹到了必然句句带脏字，所以评论中如果有不开眼的，请慎重。另外，这篇回答从头到尾都是我自己的个人偏见，绝对不客观，也绝对不会为本答案负责。所以，有自己正常思维的请不要再看下去了。】...
R语言中添加了一个自己的词典（用于分词）出现了下面的错误，怎么解决 r语言有问必答
2021-05-09 13:39

回答 3 已采纳这个报错应该是路径环境问题，你按照报错修改代码不就行了吗，最后一个翻译下意思就知道了
关于#java#的但是ik分词不能把一个英文分词，比如我有一个名称为search，我搜索ch就搜索不出来，如何解决？ java
2023-03-01 14:57

回答 2 已采纳由于 IK 分词器是面向中文语言的分词器，因此它默认不会对英文进行分词。如果您需要使用 IK 分词器对英文进行分词，可以使用其自带的拼音分词器或者扩展其字典。使用拼音分词器在使用 IK 分词器时，
请问使用jieba分词如何避免把我的时间词分开？ nlp python 自然语言处理
2022-04-29 20:27

回答 1 已采纳能不能用正则表达式先将这些筛出来，然后将其在语料中的删除，新的语料使用jieba分词，最后将两组词拼接
设计一个单选题考试程序python_Python123计算机等级考试二级Python语言与程序设计通关指南七Python 计算生态...
2020-10-21 19:27

weixin_39826342的博客可以单击查看看见更大的世界，遇见更好的自己 See a better world to meet better for ourselves.1.MMdnn----MMdnn 是一个深度学习的模型工具集，它能够互转模型文件、可视化模型结构、自动产生训练/推演的代码、...
实现bigram分词系统的python代码 python 中文分词
2023-03-28 19:25

回答 1 已采纳实现bigram分词系统可以使用Python中的基础字符串处理函数和一些基本的数据结构。下面是一个简单的实现过程：定义一个词典：可以将一个包含大量单词的文本文件读入一个列表中，每个单词作为列表的一个
结巴问题：为什么我输出不了slist (结巴分词后的结果）？ python
2021-12-27 17:53

回答 1 已采纳 jieba.cut()返回的是一个迭代器，只能迭代一次你第8行在遍历后就为空了，所以13行没办法join()了可以在第8行前加一句： slist = list(slist)
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 10:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
IT行业都有哪些职位，初学者（0基础，新人）该如何选择，才能够快速进入这个行业？...
2019-10-04 22:56

dedong4563的博客【本人性格不好，被惹到了必然句句带脏字，所以评论中如果有不开眼的，请慎重。另外，这篇回答从头到尾都是我自己的个人偏见，绝对不客观，也绝对不会为本答案负责。所以，有自己正常思维的请不要再看下去了。 ...
nltk库分词后有多余的符号分到单词里 nlp python 自然语言处理
2022-05-06 01:36

回答 1 已采纳如果只是点无法识别的话，可以先用replace()把点替换成空格，再去分词。
机器学习入门基础（万字总结）（建议收藏！！！）
2022-12-04 22:36

subsistent的博客聚类：一种探索性分析，在数据结构未知的情况下，根据相似度将样本划分为不同的群集或子集，不同聚类的样本有很大的差异，以便发现数据的类别和结构。分类：根据已知样本的某些特征确定新样本所属的类别。通过特征...
【从入门到高阶】NLP 算法的流程、主要任务及涉及算法，全都囊括了(Python 实战)
2022-05-23 18:35

Python数据挖掘的博客 NLP是人工智能领域历史较为悠久的领域，但由于语言的复杂性（语言表达多样性/歧义/模糊等等），如今的发展及收效相对缓慢。比尔·盖茨曾说过，“NLP是 AI 皇冠上的明珠。” 在光鲜绚丽的同时，却可望而不可及（…）...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

悬赏问题

¥20 ic卡dump文件校检码解密
¥15 关于：接收到的数据不是有效的JSON格式
¥15 apdl语言如何增加受力分析
¥15 算法对比：学校优化算法与蚁群算法对比
¥15 机电一体化系统设计说明书
¥20 sgy数据提取地震波速，有人能回答吗小馋
¥20 c#实现打开word的功能，并且需要安装成windows服务，word打不开怎么办
¥15 python用ARIMA时间预测模型预测数据出错，急！
¥30 为什么后端传给前端vue的河流json数据不在地图中显示出来
¥50 关于弹性波动方程求解的问题：

分词编码，如果有成千上万种格式，这个代码不能词性划分？

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新