m0_74921981 2022-11-30 00:03 采纳率: 25%
浏览 48
已结题

Python实现文本关键词提取

有参考资料,很详细,需要一点改动啥的,用Jupyter notebook,
写一个简单的实验报告,要有实验小结,程序调试过程,具体实验内容 把代码和运行结果贴上去
这就是所有的要求了

img

img

  • 写回答

4条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2022-11-30 04:09
    关注
    评论
  • 普通网友 2022-11-30 08:17
    关注

    这个其实不难,这个建议自己先尝试写下,遇到有不明白的疑问可以来交流,这样对你,对大家都比较合适。

    评论
  • cyjbj 2022-11-30 08:58
    关注

    挺专业的!!

    评论
  • yy64ll826 2022-11-30 10:40
    关注

    基于Python和TFIDF实现提取文本中的关键词_python
    https://www.jb51.net/article/245943.htm

    from sklearn.feature_extraction.text import TfidfVectorizer
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(corpus)
    print(X.toarray())
    import spacy
    import nltk
    from nltk.tokenize import word_tokenize
    from nltk.corpus import stopwords
    import regex as re
    import string
    import pandas as pd
    import numpy as np
    import nltk.data
    import re
    nltk.download('punkt')
    nltk.download('stopwords')
    nltk.download('wordnet')
    nltk.download('averaged_perceptron_tagger')
    from nltk.stem import WordNetLemmatizer
    from nltk import word_tokenize, sent_tokenize, pos_tag
    import os        
    path = "./data/theses100/"     
    all_files = os.listdir(path + "docsutf8") 
    all_keys = os.listdir(path + "keys"print(len(all_files)," files n",all_files,
          "n", all_keys) # 不一定要排序
    
    all_documents =[] 
    all_keys = [] 
    all_files_names = [] 
    for i, fname in enumerate(all_files): 
      with open(path+'docsutf8/'+fname) as f: 
          lines = f.readlines() 
      key_name= fname[:-4 ] 
      with open(path+'keys/'+key_name+'.key'as f: 
          k = f.readlines() 
      all_text = ' '.join(lines) 
      keyss = ' '.join(k) 
      all_documents.append(all_text) 
      all_keys.append(keyss.split("n")) 
      all_files_names.append(key_name)
      
    import pandas as pd
    dtf = pd.DataFrame({'goldkeys': all_keys,
                        'text': all_documents})
    dtf.head()
    dtf['cleaned_text'] = dtf.text.apply(lambda x: ' '.join(preprocess_text(x)))
    dtf.head()
    # 清理基本关键字,删除空格和噪音
    def clean_orginal_kw(orginal_kw):
      orginal_kw_clean =[]
      for doc_kw in orginal_kw:
        temp =[]
        for t in doc_kw:
          tt = ' '.join(preprocess_text(t))
          if len(tt.split())>0:
            temp.append(tt)
        orginal_kw_clean.append(temp)
      return orginal_kw_clean
    
    orginal_kw= clean_orginal_kw(dtf['goldkeys'])
    orginal_kw[0:1]
    
    
    
    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 11月30日
  • 修改了问题 11月30日
  • 修改了问题 11月30日
  • 修改了问题 11月30日
  • 展开全部

悬赏问题

  • ¥50 vue-codemirror如何对指定行 指定位置的 字符进行背景颜色或者字体颜色的修改?
  • ¥15 有人会思科模拟器嘛?
  • ¥30 遇到一个的问题,请教各位
  • ¥20 matlab报错,vflux计算潜流通量
  • ¥15 我该如何实现鼠标按下GUI按钮时就执行按钮里面的操作的方法
  • ¥15 关于#硬件工程#的问题:我这边有个锁相环电路没有效果
  • ¥15 20款 27寸imac苹果一体机装win10后,蓝牙耳机和音响放歌曲卡顿断断续续.
  • ¥15 VB.NET 父窗体调取子窗体报错
  • ¥15 python海龟作图如何改代码使其最后画出来的是一个镜像翻转的图形
  • ¥15 我不明白为什么c#微软的官方api浏览器为什么不支持函数说明的检索,有支持检索函数说明的工具吗?