包菜子 2024-09-17 01:02 采纳率: 66.7%
浏览 10
已结题

python文本分析报错

img


想请教一下为什么会出现这种报错?
我是不是需要再建立一个excel文档来命名我的结果?
不是很懂,麻烦请教各位。

  • 写回答

2条回答 默认 最新

  • Roc-xb 后端领域优质创作者 2024-09-17 02:00
    关注

    这个错误信息表明变量 new_data 未定义。这可能是因为 re.findall 返回了一个空列表,导致 join 操作结果为空字符串。

    import re
    import jieba
    
    def chinese_word_cut(mytext):
        jieba.load_userdict('add_word_list.txt')
        jieba.initialize()
        
        # 找到文本中的所有中文字符
        new_data = re.findall(r'[\u4e00-\u9fa5]+', mytext, re.S)
        
        # 检查 new_data 是否为空
        if new_data:
            new_data = " ".join(new_data)
        else:
            new_data = ""
        
        seg_list_exact = jieba.cut(new_data, cut_all=True)
        result_list = []
        
        with open('stopwordlist.txt', encoding='utf-8') as f:
            con = f.readlines()
            stop_words = set()
            for i in con:
                i = i.replace("\n", "")
                stop_words.add(i)
        
        for word in seg_list_exact:
            if word not in stop_words and len(word) > 1:
                result_list.append(word)
        
        return " ".join(result_list)
    
    # 示例使用
    # data['content_cutted'] = data.content.apply(chinese_word_cut)
    # data.head()
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 9月25日
  • 已采纳回答 9月17日
  • 创建了问题 9月17日

悬赏问题

  • ¥15 如何让企业微信机器人实现消息汇总整合
  • ¥50 关于#ui#的问题:做yolov8的ui界面出现的问题
  • ¥15 如何用Python爬取各高校教师公开的教育和工作经历
  • ¥15 TLE9879QXA40 电机驱动
  • ¥20 对于工程问题的非线性数学模型进行线性化
  • ¥15 Mirare PLUS 进行密钥认证?(详解)
  • ¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
  • ¥20 想用ollama做一个自己的AI数据库
  • ¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
  • ¥15 请问怎么才能复现这样的图呀