请问该怎么批量统计文件夹里每个txt文档的中文字数以及英文单词总数，然后再导出呀？

我正在批量提取txt文档的一些关键词词频，之前也统计了文档总字数（代码如下所示），但是后来发现有的文档有中文也有英文，现在想分开统计两种字数，文档中文总字数、文档英文单词总数（是单词，不是字母），请问这应该怎么改代码呀

统计txt的文字数

def file_fenxi(file):
    contents = file.read()
    num_words = len(contents.rstrip())
    return num_words

返回完整的文件名计算文档字数

path_sum = []
for i in file_Name:
    path = path + '/' + i
    path_sum.append(path)
    path = "E:\总txt\"

# 计算文档字数
for i in range(len(path_sum)):
with open(path_sum[i], encoding='utf-8') as file_obj:
nianbao_count = file_fenxi(file_obj)
context_Front_4[i].append(str(nianbao_count))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
失迹丶 2020-03-01 18:02
关注
中文的话直接读取字符串长度，英文的话分割空格读取数组长度，中英混合的话比较麻烦，空格分割然后for循环判断

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

请问该怎么批量统计文件夹里每个txt文档的中文字数以及英文单词总数，然后再导出呀？ python
2020-03-01 17:54

回答 2 已采纳中文的话直接读取字符串长度，英文的话分割空格读取数组长度，中英混合的话比较麻烦，空格分割然后for循环判断
批量提取多个TXT 文本中指定内容导出为一个TXT python 有问必答
2022-02-26 01:51

回答 3 已采纳 os.listdir(path)遍历文件夹中多个TXT 用正则提取文本中的指定内容你题目的解答代码如下： #-*- coding:utf-8 -*- import os import re rs =
Python里xlsx导出txt python
2022-06-29 21:42

回答 2 已采纳可以用pandas吗？ import pandas as pd df=pd.read_excel('input.xlsx') with open('output.txt', 'w') as f:
Python 人工智能：11~15
2023-04-15 22:26

绝不原创的飞龙的博客原文：Artificial Intelligence with Python 协议：CC BY-NC-SA 4.0 译者：飞龙本文来自【ApacheCN 深度学习译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。不要担心自己的形象，只关心如何实现目标。——...
请问Python可以直接导出.xlsb格式的文件吗？ python
2022-05-02 13:32

回答 1 已采纳可以试试这样 import win32com.client excel = win32com.client.Dispatch("Excel.Application") doc = excel.Work
怎么将Python的运行结果导出为csv格式？ python sklearn 有问必答
2021-12-01 11:17

回答 2 已采纳可以先转换为dataframe，再用to_csv保存即可。示例： import pandas as pd import numpy as np a=np.array([[2,3,4],[1,2,3]
利用Python自动化执行本地的多个sql脚本，导出excel数据 oracle python 自动化
2022-06-30 21:25

回答 3 已采纳因为没有Oracle数据库，没法测试，目测你的问题是没有把curs参数传递到export_excel函数中，简单的解决方案就是在getDBInfo和export_excel函数都加个参数curs，调用
「干货」Linux 应急响应日志分析命令「详细总结」
2022-02-25 15:29

橙留香Park的博客也许每个人出生的时候都以为这世界都是为他一个人而存在的，当他发现自己错的时候，他便开始长大少走了弯路，也就错过了风景，无论如何，感谢经历转移发布平台通知：将不再在CSDN博客发布新文章，敬请移步知识星球...
python读txt文件中文乱码 python 有问必答
2021-06-02 12:53

回答 5 已采纳把GBK改成UTF-8试一下，还有就是你的txt文档的编码格式不对。
如何写再oracle中用sql语句将这个进行分组然后按照每个乡镇的名字导出多个excel oracle sql
2021-09-28 09:44

回答 1 已采纳单纯的sql语句恐怕做不到你所说的整个工作，不过可以通过存储过程对其进行处理：将数据中的乡镇进行分组后生成游标（可以只要乡镇名）循环游标，并在游标的循环中，创建以游标中的各个乡镇名为表名的表（注意字
Mac系统中python如何导出excel数据 python 有问必答
2021-08-19 08:35

回答 1 已采纳可以参考这篇文章，希望对你有帮助： Mac——利用Python读取与写入Excel文档_GeekZW的博客-CSDN博客 Mac——利用Python读取与写入Excel文档目的：按照自定义的格
JS复习汇总笔记
2023-06-15 19:06

茴香馅饺子~的博客比如我们的程序中有一个值123，这个值我们是需要反复使用的，这个时候我们最好将123这个值赋值给一个变量，然后通过变量去使用123这个值。变量的声明：(用var声明一个变量，ES6不推荐，推荐使用let const声明变量,...
Python为什么PIL保存excel单元格截图是纯黑色的呀？ python
2021-08-24 11:45

回答 2 已采纳首先，如楼上所说，需要先确保你的文件路径是绝对目录，不过，既然能生成图片文件，你的文件路径应该没有问题。你上述的情况出现，我分析：你的excel文件是默认背景，这个背景颜色并不是白色，而是透明色，所以
运维攻城狮面试题汇总
2020-05-22 00:12

哦吼吼吼tian的博客报表功能 Elasticsearch特点: 实时分析分布式实时文件存储,将每个字段都编入索引文档导向,所有的对象全部是文档高可用性,易扩展,支持集群(Cluster)、分片和复制(shards和Replicas) 接口友好,支持JSON Logstash...
PHP面试题(一)
2018-03-24 11:56

钟长森的博客用PHP实现一个双向队列(使用deque) ...双向队列（双端队列）就像是一个队列，但是你可以在任何一端添加或移除元素。而双端队列是一种数据结构，定义如下： A deque is a data structure cons...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

请问该怎么批量统计文件夹里每个txt文档的中文字数以及英文单词总数，然后再导出呀？

统计txt的文字数

返回完整的文件名 计算文档字数

2条回答

悬赏问题

返回完整的文件名计算文档字数