textrank“批量”提取摘要

目前，已有提取单篇txt摘要的代码，不知道怎么分别提取多篇txt的摘要（所有txt都在一个文件夹里）

import sys 
from imp import reload

try:
    reload(sys)
    sys.setdefaultencoding('utf-8')
except:
    pass
 
import codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence

file = r'/Users/xiongying/Desktop/有关农业经济的几个问题_许涤新.txt'
 
# 打开并读取文本文件
 
text = codecs.open(file, 'r', 'utf-8').read()

 
# 创建分词类的实例
 
tr4w = TextRank4Keyword()
 
# 对文本进行分析，设定窗口大小为2，并将英文单词小写
 
tr4w.analyze(text=text, lower=True, window=2)

"""输出"""
 
print('关键词为：')
 
# 从关键词列表中获取前20个关键词
 
for item in tr4w.get_keywords(num=20, word_min_len=1):
    print(item.word, item.weight)
    print('\n')
    print('关键短语为：')
# 从关键短语列表中获取关键短语
 
for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num=2):
    print(phrase)
    print('\n')
# 创建分句类的实例
 
tr4s = TextRank4Sentence()
 
# 英文单词小写，进行词性过滤并剔除停用词
 
tr4s.analyze(text=text, lower=True, source='no_filter')
 
print('摘要为：')
 
# 抽取3条句子作为摘要
 
for item in tr4s.get_key_sentences(num=3):

# 打印句子的索引、权重和内容
 print(item.index, item.weight, item.sentence)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

陈年椰子 2022-03-27 18:54

关注

大概调整了一下，加了个读目录文件的方法。
试试，看行不行

import sys
from imp import reload
import os

try:
    reload(sys)
    sys.setdefaultencoding('utf-8')
except:
    pass

import codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence

def work(file):
    # file = r'/Users/xiongying/Desktop/有关农业经济的几个问题_许涤新.txt'

    # 打开并读取文本文件

    text = codecs.open(file, 'r', 'utf-8').read()

    # 创建分词类的实例

    tr4w = TextRank4Keyword()

    # 对文本进行分析，设定窗口大小为2，并将英文单词小写

    tr4w.analyze(text=text, lower=True, window=2)

    """输出"""

    print('关键词为：')

    # 从关键词列表中获取前20个关键词

    for item in tr4w.get_keywords(num=20, word_min_len=1):
        print(item.word, item.weight)
        print('\n')
        print('关键短语为：')
    # 从关键短语列表中获取关键短语

    for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num=2):
        print(phrase)
        print('\n')
    # 创建分句类的实例

    tr4s = TextRank4Sentence()

    # 英文单词小写，进行词性过滤并剔除停用词

    tr4s.analyze(text=text, lower=True, source='no_filter')

    print('摘要为：')

    # 抽取3条句子作为摘要

    for item in tr4s.get_key_sentences(num=3):
        # 打印句子的索引、权重和内容
        print(item.index, item.weight, item.sentence)

def check_all_files(check_path):
    list_files = []
    # 列出文件夹下所有文件
    cur_list = os.listdir(check_path)
    for i in range(0 ,len(cur_list)):
        file_path = os.path.join(check_path, cur_list[i])
        if os.path.isfile(file_path):
            if cur_list[i].upper()[-4:]=='.TXT':
                list_files.append([cur_list[i], file_path])
    return list_files


f_lst = check_all_files(r"/Users/xiongying/Desktop")

for f in f_lst:
    print("处理",f[0])
    work(f[1])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

textrank“批量”提取摘要 jupyter python
2022-03-27 18:05

回答 2 已采纳大概调整了一下，加了个读目录文件的方法。试试，看行不行 import sys from imp import reload import os try: reload(sys) s
python textrank 将摘要分别存入csv jupyter python
2022-03-27 20:26

回答 1 已采纳这样试试，我代码里写了注释 import sys from imp import reload import os try: reload(sys) sys.setdefaulte
python 怎样批量生成变量名 python
2022-05-15 14:27

回答 2 已采纳用内置函数exec()，比如用一个循环一次性定义10个变量名： for i in range(10): exec(f'p{i}=0') >>> p0,p1,p2,p3,p9
python批量提取word指定内容_python 批量提取word应聘登记表数据+情感分析
2020-11-20 17:43

weixin_39982568的博客 1.本代码做情感分析，...对于不同格式的应聘登记表，需要具体定位数据位置比如：name = tables[j].cell(0, 1).text 表示第j个表格第一行第二个数据在header变量中可修改自己需要的字段注意：全局变量不要重名，最...
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
批量提取txt前七个字符 java php python 有问必答
2021-08-07 17:01

回答 3 已采纳 import os import openpyxl path = r"E:/xxx" #目录路径 FileNames=os.listdir(path) li = [["文件名","车牌号"]] fo
python 提取excel的某几列的数据 list python
2021-02-08 08:52

回答 3 已采纳 import pandas as pd file_name = r"new.xlsx" df = pd.read_excel(file_name) columns = ["a","c","e"]
提取文本关键词？很 easy 啊，用 Python 三行搞定
2023-04-17 08:30

香菜+的博客 textrank 主要应用于基于图模型的文本摘要和关键词提取，对于较长的英文文本的处理效果较好。SnowNLP 的应用场景主要是中文文本情感分析、文本分类等任务，它能够识别出文本的情感色彩，并进行积极、消极等分类，...
如何通过python提取word里面的选择题和填空题 python
2022-05-21 16:01

回答 1 已采纳报错信息是什么
用Python循环提取每个月的数据 python 有问必答
2022-06-24 06:08

回答 6 已采纳假如是如2020-01-01这样日期数据，可使用pandas提取。样例数据： date,open,close,high,low,volume 2021-01-04,4.31,4.42,4.45,4.3
使用python提取嵌套列表元素 python
2020-11-13 19:11

回答 2 已采纳 li = [1, 2, [3, 4], 5] new = [] for item in li: if isinstance(item, list): new.extend(
Python批量获取高校基本信息
2022-10-28 18:22

PyCrawlFlutter Lab的博客 Python协程异步获取高校基本信息
Python 实现列表提取元素 python
2020-06-04 11:36

回答 1 已采纳用列表推导式，和字符串的join方法。 ``` python z = [['C','T','B'],['A','G','A'],['A','C','A'],['C','G','Y']] ne
利用TextRank算法制作一个可以提取聊天关键词的QQ群机器人
2020-12-28 16:16

mgsky1的博客文章目录前言效果TextRank算法PageRank算法TextRank算法共现关系滑动窗口图构建关键词抽取思路实现...言归正传，本篇博文将介绍如何利用TextRank算法实现一个可以提取QQ群聊天热词的机器人。制作这个机器人的初衷是：有
python关键词排名批量查排名_python打造批量关键词排名查询工具
2020-12-10 10:31

weixin_39615402的博客自己做站点的时候，都看看收录和关键词排名什么的，所以打造的这个批量关键词查询工具。#encoding:utf-8import urllib,re,random,time,sys,StringIO,sockettry:import pycurlexcept:passfrom bs4 import ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

悬赏问题

¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来

textrank“批量”提取摘要

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新