结巴词性标注的代码修改，在韩版代码基础上

求机器语言专家修改代码。作为一个文本挖掘练习生，本人是在韩国学的文本挖掘相关的内容。然后想要自己修改代码用来中文文献的文本挖掘。现在主要问题在于结巴分词的代码逻辑好像跟在韩国用的代码逻辑不太一样，在词性标注阶段怎么修改都显示没有twitter分词的功能。
韩国代码内容比较详细，它考虑到了在文本分析时的几种可能情况，所以有点复杂，我自己按照中文逻辑修改了一部分，为了避免遗漏，我把自己改的部分和原始代码一块放上来。

以下是韩国原版的代码：

def word_count(news_series, additional_words=None, stop_words_specific=None, dict_replace=None, dict_space=None):

    now = datetime.datetime.now()
    print(now)

    lines = news_series

    # 텍스트 클리닝
    list_news = list()
    for line in lines:
        # 粘贴带有分写的单词
        for word in dict_space.keys():
            line = str(line).replace(word, dict_space[word])
        # 특수문자들 제거
        list_news.append(_text_cleaning(str(line)))

    #twitter = Okt()
    tagger = Twitter()

    # list형태의 사용자 지정 단어 추가(명사)
    if len(additional_words) != 0:
        tagger.add_dictionary(additional_words, 'Noun')

    # 카운트 하지 않을 단어 목록
    if len(stop_words_specific) != 0:
        tagger.add_dictionary(stop_words_specific, 'Noun')

    # 형태소로 분리
    sentences_tag = list()
    for sentence in tqdm(list_news):
        morph = tagger.pos(sentence)
        sentences_tag.append(morph)

    # 필요한 품사 리스트 - Noun, Adj, Verb 등
    list_word_class = ['Noun']

    # 형태소 분석한 결과 집합
    document = list()

    # 각각의 게시글
    for sentence1 in sentences_tag:
        list_each_write = list()
        # 각각의 형태소
        for word, tag in sentence1:
            if ((tag in list_word_class) & (word not in stop_words_specific) & (len(word) != 1)) \
            | ((len(word) == 1) & (word in additional_words)):
                # 특정 단어들 replace
                if word in list(dict_replace.keys()):
                    word = dict_replace[word]
                list_each_write.append(word)
        document.append(list_each_write)

    # flattening
    flatten = lambda x: list(itertools.chain.from_iterable(x))
    text = nltk.Text(flatten(document))

    num_token = 30000
    print('\n전체 토큰 갯수: {}'.format(len(text.tokens)))
    print('유니크 토큰 갯수: {}'.format(len(set(text.tokens))))
    counts = text.vocab().most_common(num_token)

    return counts, document

# 한글, 공백, as 를 제외하고 모두 제거
data['keyword'] = data['keyword'].str.replace("[^a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣0-9 ]","")
data['keyword'].replace('', np.nan, inplace=True)

# 중복 제거
data = data.drop_duplicates(subset=['keyword']).dropna(subset=['keyword'])

# 단어사전에 추가할 단어
additional_words = ['조선족', '중국인']    # [필수 변경] 개별 데이터에서 형태소분석으로 나누어지지 않게 추가해야 할 단어 추가 (필요없다면 비워둠)

# 단어사전에서 제외할 단어
stop_words_specific = ['교포', '한국']                 # [필수 변경] 제외할 단어가 있는 경우 추가 (필요없다면 비워둠. 비워둘 때에는 괄호는 남겨야 함-위아래 공통사항)

# 단어사전에서 단어 교체
dict_replace = {}        # [필수 변경] 예시는 수면제를 약물로 변경하고 싶을 때를 나타냄. 변경이 필요할 경우 추가 (필요없다면 비워둠)

# 단어사전에서 띄어쓰기 제거
dict_space = {'중국인 동포': '중국인동포'}   # [필수 변경] 띄어쓰기를 통일하고 싶을 때 추가 (필요없다면 비워둠)

#형태소 분석
lines = data['keyword']    # 형태소 분석할 column 명
counts, document = word_count(lines,
                              additional_words,
                              stop_words_specific,
                              dict_replace=dict_replace,
                              dict_space=dict_space
                              )

以下是我修改的代码，其中有问题的部分就在第二行，psg的使用问题。这个模块的无法使用影响到了后面的各种代码的编写，所以还是蛮麻烦的。我希望其他部分不改，就把词性分析模块调出来，能正常完成token的计数。

def word_count(news_series, additional_words=None, stop_words_specific=None, dict_replace=None, dict_space=None):
                                                      #此处与词表相连接，停用词表等
    lines = news_series
    list_news = list()   #引入一个新闻列表
    sentences_tag = list()
    
  #利用jieba进行词性标注,这里可能有问题，是tagger的问题
    seg=psg.cut(sentences_tag)

    # 添加 list 类型的自定义单词(名词)
    if len(additional_words) != 0:
        seg.add_dictionary(additional_words, 'Noun')

    # 停用词列表
    if len(stop_words_specific) != 0:
        seg.add_dictionary(stop_words_specific, 'Noun')

    # 词素分离
    
    for sentence in tqdm(list_news):
        morph = seg.pos(sentence)
        sentences_tag.append(morph)

    # 所需词性列表 - Noun、 Adj、 Verb 等
    list_word_class = ['Noun']

    # 词素分析结果集合
    document = list()

    # 句子切分
    for sentence1 in sentences_tag:
        list_each_write = list()
        # 词素切分
        for word, tag in sentence1:
            if ((tag in list_word_class) & (word not in stop_words_specific) & (len(word) != 1)) \
            | ((len(word) == 1) & (word in additional_words)):
                # 特定单词替换
                if word in list(dict_replace.keys()):
                    word = dict_replace[word]
                list_each_write.append(word)
        document.append(list_each_write)

    # 压平,降维函数
    flatten = lambda x: list(itertools.chain.from_iterable(x))
    text = seg.Text(flatten(document))

    num_token = 5000
    print('\n整体分词个数: {}'.format(len(text.tokens)))
    print('唯一分词个数: {}'.format(len(set(text.tokens))))
    counts = text.vocab().most_common(num_token)

    return counts, document

# 去重
data = data.drop_duplicates(subset=['keyword']).dropna(subset=['keyword'])

# 分离前添加的单词表
additional_words = ['', '']

# 分离前去除的单词表，停用词
stop_words_specific = ['', '']

# 分离前替换的单词（敏感单词或多义单词的替换）
dict_replace = {}

#词素分析 要 添加空白间隔 ，词性标注，通用表，添加表，交换词，指定所需词性，压平 不要 逗号等标点，数字，特殊文字，单独分词工作（在之前先分开）
lines = data['keyword']    # 词素分析 column 名
counts, document = word_count(lines,
                              additional_words,
                              stop_words_specific,
                              dict_replace=dict_replace,
                              )

如果有机器语言专家能帮助解答，感激不尽！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-11 19:09
关注
【相关推荐】

帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7709018
除此之外, 这篇博客: 机器学习-过拟合、正则化、稀疏性、交叉验证概述中的在机器学习中，我们将模型在训练集上的误差称之为训练误差，又称之为经验误差，在新的数据集（比如测试集）上的误差称之为泛化误差，泛化误差也可以说是模型在总体样本上的误差。对于一个好的模型应该是经验误差约等于泛化误差，也就是经验误差要收敛于泛化误差，根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化误差的。部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

文本词频统计问题，运行代码后运行不了了？jieba库已经下载啦 python 有问必答
2021-04-10 17:03

回答 3 已采纳 txt=open("哈哈哈.txt",'r',encoding='utf-8')，就是改编码方式，如果不行就换其他编码
关于C++中嵌入python 结巴分词 c++ python
2016-05-26 07:15

回答 4 已采纳注意py脚本中不要有print 会终止脚本，unicode类型转str的话，用encode('gbk')
! 结巴分词老是出现False python
2022-03-07 15:14

回答 2 已采纳
结巴分词、词性标注以及停用词过滤
2016-10-31 22:52

在分词的基础上，词性标注是对每个词汇赋予其相应的词性标记，如名词（n）、动词（v）、形容词（a）等。这有助于进一步理解句子的结构和含义。jieba库提供了词性标注功能，可以通过`jieba.posseg`模块实现。例如，...
结巴问题：为什么我输出不了slist (结巴分词后的结果）？ python
2021-12-27 17:53

回答 1 已采纳 jieba.cut()返回的是一个迭代器，只能迭代一次你第8行在遍历后就为空了，所以13行没办法join()了可以在第8行前加一句： slist = list(slist)
请问使用jieba分词如何避免把我的时间词分开？ nlp python 自然语言处理
2022-04-29 20:27

回答 1 已采纳能不能用正则表达式先将这些筛出来，然后将其在语料中的删除，新的语料使用jieba分词，最后将两组词拼接
结巴分词时，AttributeError: 'DataFrame' object has no attribute 'decode'， python 有问必答
2021-09-12 19:53

回答 1 已采纳 jieba的cut方法，接受的参数为str类型，而你的参数ecom_info是一个dataframe。你应该先将ecom_info转换为str类型才可以，或者用apply对dataframe具体的值应
自然语言处理NLP之中文分词和词性标注
2020-11-22 10:12

陈敬雷-充电了么-CEO兼CTO的博客文章目录一、Python第三方库jieba（中文分词、词性标注）特点二、jieba中文分词的安装关键词抽取基于TF-IDF算法TF-IDF原理介绍基于TextRank...3.搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合
python怎么把jieba分词后的结果导入excel中啊
2017-07-19 15:45

回答 1 已采纳 http://blog.csdn.net/u014070086/article/details/73201590
词云出错，都是空格，为啥呢？ python
2022-03-09 11:52

回答 1 已采纳显示中文的问题，要设置一下font_path='simhei.ttf'，下面给你一个常用的wordcloud绘制中文词云的模板，从txt里读取，你数据如果在csv那就取那一列统计。 import ji
python中jieba库遇到的问题 python vscode 有问必答
2022-01-20 15:42

回答 2 已采纳看出来了，你不要用和库名一样的文件名把程序名改为 myjieba.py
[Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解
2019-07-28 16:59

Eastmount的博客本系列文章主要结合Python语言实现知识图谱构建相关工程，具有一定创新性和实用性，非常希望各位博友交流...这篇文章主要介绍最经典的自然语言处理工具之一——Jieba，包括中文分词、添加自定义词典及词性标注等内容。
jieba库，用不了，一直报错什么原因，求解答 python 有问必答
2021-05-18 18:47

回答 2 已采纳你的hamlet.txt没在当前文件夹路径下，你可以把完整的路径补充上例如 getText txt = open("C:/Users/Lenovo/Desktop/hamlet.txt", "r"
结巴分词源代码
2014-02-27 17:56

这个源代码提供了对中文文本进行分词、词性标注、关键词提取等多种功能，对于学习自然语言处理（NLP）和Python编程的开发者来说，具有极高的学习价值。首先，我们来详细了解一下中文分词。分词是NLP中的基础任务，...
结巴分词的源代码
2018-05-26 21:55

10. **扩展功能**：除了基本的分词，jieba还提供了词性标注、关键词提取、新词发现等功能，满足更复杂的文本处理需求。综上所述，jieba分词是一个功能强大的Java分词工具，广泛应用于信息检索、文本挖掘、情感分析...
结巴分词Python代码
2014-08-26 20:24

结巴分词（Jieba）是Python编程语言中的一款著名中文分词库，由结巴团队开发。它以其高效、准确和易用性而受到广大开发者和数据处理人员的青睐。分词是自然语言处理（NLP）中的基础任务，对于中文文本尤其重要，因为...
python的jieba分词词性标注
2015-09-22 19:55

li_31415的博客 jieba分词的词性标注 在明哥的严厉催促下，我终于注册了我自己的博客，并且这是我写的第一篇博客，写得不好还请大家多多指出，以帮助小弟在编程之路上走得更远。好了，废话就不多说了，直接进入主题吧。 ...
【自然语言处理与文本分析】中文分词的基本原理，如何进行词性标注 使用HMM算法提高准确率
2022-07-16 18:20

晴天qt01的博客中文分词是文本处理必不可少的一部分，词性标注对后续的关键词截取和词云图绘制是非常有帮助的
jieba.posseg.cut方法(分词同时对词性标注)
2022-03-13 09:42

小白学编程11的博客 import jieba.posseg as pseg ...#以下代码拷到IDE中不能直接执行，需要引掉其中一行运行另一行才能出现所示输出结果 for word, flag in words: print('%s %s' % (word, flag)) #输出结果： '''你 r 想
python 分词词性_分词及词性标注
2020-12-09 20:06

weixin_39732609的博客分词及词性标注在英文中，计算机能够利用词语之间的空格来辨别每一个单词词语，但是由连续中文文本组成的汉语序列，因为其词和词之间没有任何标识来进行划分，所以计算机无法方便的直接进行分词处理。然而计算机在对...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

结巴词性标注的代码修改，在韩版代码基础上

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新