文本相似度计算时需要对文件夹每一个文件分别计算

本人再利用Jaccard计算文本相似度，希望代码可以遍历文件夹中每一篇文章，即得到每一文章与参考文档的相似度，但在遍历文件夹出现问题

import jieba 
import jieba.posseg as psg
import codecs
#将不用拆分的词组载入jieba
jieba.load_userdict("D:\IEdownload\毕设\代码\非拆分.txt")
#定义转化为字符串函数
def standardization(filename):
    data=''
    with open(filename,'r',encoding='utf-8') as f:
        for line in f.readlines():
            line=line.strip('\n')
            data+=line
        return data
#定义jaccard相似度函数
def Jaccard(model,reference):
    terms_reference=jieba.cut(reference)
    terms_model=jieba.cut(model)
    grams_reference=set(terms_reference)
    grams_model=set(terms_model)
    temp=0
    for i in grams_reference:
        if i in grams_model:
            temp=temp+1
    fenmu=len(grams_model)+len(grams_reference)-temp
    jaccard_coefficient=float(temp/fenmu)
    return jaccard_coefficient

#输入参照文档
query="D:\IEdownload\毕设\代码\参考文档.txt"

以下是我目前尝试的目标文档遍历方法

import os
import re
path = "D:\IEdownload\毕设\新闻数据\保险集团\中国人寿1" #文件夹目录
files= os.listdir(path) #得到文件夹下的所有文件名称
for file in files: #遍历文件夹
    position = path+'\\'+ file #构造绝对路径
    with open(position, "r",encoding='gb18030') as f:    #打开文件
        data = f.read()   #读取文件
        #print("--------------------------")
        #print(data)
        data_new=re.sub('\s','',data)
        n=standardization(data_new)
        print(Jaccard(m,n))

谢谢！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
神奇的代码在哪里 2023-02-23 17:19
关注
首先standardization(filename)函数，需要传入的的是一个文件路径，如下面代码的filename

def standardization(filename): data='' with open(filename,'r',encoding='utf-8') as f: for line in f.readlines(): line=line.strip('\n') data+=line return data

但题主你在这里传的是文件里的数据data_new所以报错了，如下图：
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

文本相似度计算时需要对文件夹每一个文件分别计算 python
2023-02-23 15:13

回答 3 已采纳首先standardization(filename)函数，需要传入的的是一个文件路径，如下面代码的filename def standardization(filename): data='
遍历读取每个文件夹下的TXT文件 python 有问必答
2022-03-18 19:49

回答 2 已采纳 file 只是文件名,要用 os.path.join(path, file) 在文件名前拼接上文件夹路径你题目的解答代码如下： path = '文件夹路径' files = [] for file
C++中的文件操作，将计算结果保存到一个文本文件中 c++
2022-05-14 22:58

回答 2 已采纳如下： #include<iostream> #include<fstream> using namespace std; int main(void) { int i,j;
“自然”语言编程（NLC）的到来比你想象的要快
2022-08-24 10:10

禅与计算机程序设计艺术的博客 GPT-3GPT-3 是一个训练...AI 编程其实也并非是新鲜事了，之前的AI自动辅助编程工具Copilot也是一个。实际上，Codex更像是Copilot的一个全面升级。二者同样都是再GPT-3的基础上构建而成，不过Codex能够直接将英文需求...
读取文本文件并对所含二维数组的所有元素进行相加 eclipse java 有问必答算法
2022-12-09 20:52

回答 2 已采纳逐行读取文件，用空格拆分，然后进行运算。代码修改如下： import java.io.BufferedReader; import java.io.FileReader; import java.i
Python将一个文件里某几行输入到另一个文本 python
2022-06-12 16:49

回答 2 已采纳 Gene={}是字典,你需要用什么做字典的键和值如果是复制整行内容应该是 import re Gene=[] pattern=re.compile(r'gene_type=((mi|r|sn)RNA)
Java怎么将一个文件夹下的txt文本文档复制到另一个文件夹 java 有问必答
2021-09-12 13:42

回答 1 已采纳你复制后，是不是没带上文件名后缀txt
CV：计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用领域(偏具体应用)、经典CNN架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装、常用数据集、编程技巧
2022-10-18 01:51

一个处女座的程序猿的博客 CV：计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用领域(偏具体应用)、经典CNN架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装、常用数据集、编程技巧目录最新文章 ...
python 合并子文件夹中所有文本文件 python 有问必答
2021-09-28 02:26

回答 1 已采纳 # -*- coding:utf-8 -*- import os path = r"E:/xxx/数据" #目录路径 dirs=os.listdir(path) with open(r'版本一.t
用java读取一个文件夹下的文件，同名的图片和文本建立一个关系 java 数据库
2018-12-13 08:28

回答 2 已采纳一个map就搞定了，文件名做key,文件全名做value,value坐追加操作，不要覆盖了就行
电脑程序都打不开，文件夹下有文本文件 windows 系统安全阿里云
2022-08-23 09:34

回答 6 已采纳勒索病毒吧
基于词频的文件相似度
2020-02-29 19:50

「楡」君的博客实现一种简单原始的文件相似度计算, 即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题, 这里不考虑中文(因为分词太难了), 只考虑长度不小于1000个英文单词的文章, 长度超过10字母的单词只考虑前10个...
利用Transformer实现文本分类及情感分析技术
2023-07-13 00:52

禅与计算机程序设计艺术的博客随着互联网和大数据时代的到来，...近年来，Transformer 作为一种先进的深度学习模型，在自然语言处理领域取得了巨大的成功。通过 Transformer，我们可以实现对文本数据的高效处理，提高分类和情感分析的准确性和效率。
Github13K！相似搜索百宝箱，文本匹配入门必备！
2021-04-24 00:46

kaiyuan_sjtu的博客每个人都有网购的经历，当你打开淘宝、京东app进入店铺，是怎样找到自己心仪商品的呢？最直白的方法，拉到“全部商品”页，从头一件件看。但这样做明显效率不高，如果有上千件商品，可能想买的没买到...
基于字符串匹配的文本相似度分析
2021-04-17 20:27

梦平的博客总共有六个算法，具体算法思想可以关注前面发过的文章，但是其中的基于自大子字符串长度的算法运行效率太低，有待优化。由于代码中有相关注释，所以实现过程就不一一赘述 # -*- coding:utf-8 -*- #这个.py将所有的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月23日

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

文本相似度计算时需要对文件夹每一个文件分别计算

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新