weixin_37844369 2022-11-03 01:53 采纳率: 0%
浏览 40
已结题

- 问题:doc = corpus[534] # 随便找个摘要,本文只是单纯看一个摘要的tf-idf值** 目的:代码如下,想得到所有摘要的tf-idf值,如何打印出来

  • 问题:doc = corpus[534] # 随便找个摘要,本文只是单纯看一个摘要的tf-idf值**
    目的:代码如下,想得到所有摘要的tf-idf值,如何打印出来

from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)
# bag_of_words是上面的词频数
tfidf_transformer.fit(bag_of_words)
# 获取特征名称,上面限定的10000个
feature_names = cv.get_feature_names()
# 针对某个摘要提取,tfidf向量,是稀疏数据类型:scipy.sparse.csr.csr_matrix
**doc = corpus[534] # 随便找个摘要,本文只是单纯看一个摘要的tf-idf值**
tf_idf_vector = tfidf_transformer.transform(cv.transform([doc]))
from scipy.sparse import coo_matrix
# 数据格式转换:scipy.sparse.csr.csr_matrix ——> scipy.sparse.coo.coo_matrix
coo_matrix = tf_idf_vector.tocoo()
# coo_matrix.col表示稀疏数据不为0时对应的索引,coo_matrix.data表示稀疏数据不为0时索引下的取值
tuples = zip(coo_matrix.col, coo_matrix.data)
sorted_items = sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

# 获取tf-idf前10个最大值
sorted_items = sorted_items[:10]
score_vals = []
feature_vals = []

# idx:索引 和 tf-idf:tf-idf值
for idx, score in sorted_items:
    score_vals.append(round(score, 3))
    feature_vals.append(feature_names[idx])
# 把tf-idf取值最大的前10个,获取其特征名与对应的tf-idf值,放入results字典中
results = {}
for idx in range(len(feature_vals)):
    results[feature_vals[idx]] = score_vals[idx]
# 结果打印出来
print('\nAbstract:')
print(doc)
print("\nkeywords:")
for k in results():
    print(k, results[k])

  • 写回答

2条回答 默认 最新

  • weixin_37844369 2022-11-03 12:33
    关注

    各位大神,最好给出序号对应的列表 举例如:
    0 offshoring 0.227 outsourcing offshoring decision 0.214 decision 0.208
    1 geographically 0.172 outsourcing offshoring decision 0.214 decision 0.208
    2 geographically0.227 outsourcing offshoring decision 0.214 decision 0.208
    3 offshoring 0.227 outsourcing offshoring decision 0.214 decision 0.208

    评论

报告相同问题?

问题事件

  • 系统已结题 11月11日
  • 创建了问题 11月3日

悬赏问题

  • ¥15 征集Python提取PDF文字属性的代码
  • ¥15 如何联系真正的开发者而非公司
  • ¥15 有偿求苍穹外卖环境配置
  • ¥15 代码在keil5里变成了这样怎么办啊,文件图像也变了,
  • ¥20 Ue4.26打包win64bit报错,如何解决?(语言-c++)
  • ¥15 clousx6整点报时指令怎么写
  • ¥30 远程帮我安装软件及库文件
  • ¥15 关于#自动化#的问题:如何通过电脑控制多相机同步拍照或摄影(相机或者摄影模组数量大于60),并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
  • ¥20 深信服vpn-2050这台设备如何配置才能成功联网?
  • ¥15 Arduino的wifi连接,如何关闭低功耗模式?