求用python匹配数据段的代码

问题遇到的现象和发生背景

我需要一个python代码，实现从数据库中匹配最相似的数据段。
我输入的数据段与匹配的数据时间长度并不一定相等，之前了解到许多是用DTW的方法来实现。许多案例是计算两个数据之间的相似度，而我需要从一堆数据库中筛选出最为匹配的数据，起点和终点都未知。也许要完成这个功能单凭DTW并不能胜任，就请帮我实现。具体请见示例图：

我想要达到的结果

我将一个dataframe里面某个数据输入程序，程序从我的数据库文件夹里匹配出最为相似的数据段并输出时间，只需要告诉是哪个数据文件的哪一段即可。数据库文件夹里要么全部是CSV文件，要么全部是H5，你就当时CSV吧，我可以根据情况自行修改。由于数据库里文件较多，所以希望能提升匹配速度。如果对程序中的个别代码有疑惑，希望可以与你沟通。
多写注释，不要贴图啊，我要直接ctrl C+V 运行，私信我。可以运行我就采纳了。

有兴趣的私信我，我把测试数据发给你，效果好的话我会+200

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

天元浪子 Python领域优质创作者 2022-07-28 10:40

关注

请根据你的数据存储情况修改应用代码中的路径。如果匹配数据文件较多，建议将debug设置为False

# -*- coding: utf-8 -*-

import os, sys, time
import numpy as np
import pandas as pd
from scipy import interpolate


class CurveMatchPipe:
    """时序数据匹配流水线"""
    
    def __init__(self, sample_file, data_folder, max_var=0.1, debug=False):
        """构造函数
        
        sample_file     - 样本数据文件名
        data_folder     - 数据仓库路径
        max_var         - 偏离方差（数值越小，曲线越相似）
        """
        
        data_csv = self.read_csv(sample_file)
        if data_csv is None:
            print('样本数据文件%s缺少time列或aim列，程序终止运行。'%sample_file)
            sys.exit(1)
        
        stamp, data = self.data_cleaning(*data_csv, 'linear')
        self.sample = (data - data.mean()) / data.std()
        self.data_folder = data_folder
        self.max_var = max_var
        self.debug = debug
        self.time_cost = list()
        self.result = {
            '数据文件': list(),
            '起始时间': list(),
            '截止时间': list(),
            '起始索引': list(),
            '截止索引': list(),
            '偏离方差': list()
        }

    def read_csv(self, fn):
        """读取数据文件，返回时间戳数组和aim数组"""
        
        stamp, data = list(), list()
        with open(fn, 'r') as fp:
            lines = fp.readlines()
            col_names = lines[0].split(',')
            
            if 'time' in col_names:
                idx_time = col_names.index('time')
            else:
                return None
            
            if 'aim' in col_names:
                idx_aim = col_names.index('aim')
            else:
                return None
            
            for line in lines[1:]:
                items = line.split(',')
                stamp.append(int(items[idx_time]))
                data.append(float(items[idx_aim]))
        
        return np.array(stamp), np.array(data)
    
    def is_continuous(self, stamp):
        """判断时间戳是否连续"""
        
        return np.where(np.diff(stamp) != 1)[0].shape[0] == 0
    
    def data_cleaning(self, stamp, data, method='linear'):
        """数据清洗。对于缺值数据默认线性插值，可选样条插值（cubic）"""
        
        if self.is_continuous(stamp):
            return stamp, data
        
        f = interpolate.interp1d(stamp, data, kind=method)
        stamp_new = np.linspace(stamp[0], stamp[-1], stamp[-1]-stamp[0]+1)
        data_new = f(stamp_new) 
        
        return np.int32(stamp_new), data_new
    
    def match(self):
        """遍历数据仓库，匹配样本数据"""
        
        for fn in os.listdir(self.data_folder):
            t0 = time.time()
            if self.debug:
                print('正在处理文件%s...'%fn, end='')
            
            if os.path.splitext(fn)[1] != '.csv':
                if self.debug:
                    print('忽略：文件格式错误')
                continue
            
            data_csv = self.read_csv(os.path.join(self.data_folder, fn))
            if data_csv is None:
                if self.debug:
                    print('忽略：缺少time列或aim列')
                continue
            
            stamp, data = self.data_cleaning(*data_csv, 'linear')
            m, n = self.sample.shape[0], data.shape[0]
            d = np.vstack([data[i:n-m+1+i] for i in range(m)]).T
            d_mean = d.mean(axis=1).reshape(-1,1)
            d_std = d.std(axis=1).reshape(-1,1)
            d = (d - d_mean) / d_std
            diff = d - self.sample
            variance = diff.var(axis=1)
            
            for idx in np.argsort(variance):
                if variance[idx] > self.max_var:
                    break
                
                self.result['数据文件'].append(fn)
                self.result['起始时间'].append(stamp[idx])
                self.result['截止时间'].append(stamp[idx+m])
                self.result['起始索引'].append(idx)
                self.result['截止索引'].append(idx+m)
                self.result['偏离方差'].append(variance[idx])
            
            if self.debug:
                print('完成')
            
            t1 = time.time()
            self.time_cost.append(t1-t0)
    
    def report(self, out_file=None):
        """打印DataFrame结构的匹配结果报告，若提供输出文件名，则生成excel文件"""
        
        report = pd.DataFrame(self.result)
        n = len(self.time_cost)
        total = sum(self.time_cost)
        mean = total/n
        
        if out_file:
            report.to_excel(out_file, sheet_name='匹配结果')
        else:
            print('---------------------------------------------------------------------------------')
            print(report)
        
        print('---------------------------------------------------------------------------------')
        print('共计处理%d个数据文件，累计耗时%.3f秒，单个文件平均用时%.3f秒'%(n, total, mean))
    

if __name__ == '__main__':
    cmp = CurveMatchPipe('data/samples/data.csv', 'data/storehouse', max_var=0.3, debug=True)
    cmp.match()
    cmp.report('report.xlsx')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(7条)

报告相同问题？

关注问题

求用python匹配数据段的代码 python 人工智能语音识别
2022-07-27 14:47

回答 8 已采纳请根据你的数据存储情况修改应用代码中的路径。如果匹配数据文件较多，建议将debug设置为False # -*- coding: utf-8 -*- import os, sys, time impo
Python的代码编程 python
2021-12-29 22:59

回答 1 已采纳 d = {'李阳': ['音乐', '读书', '跑步'], '王天薇': ['美食', '诗歌', '旅游'], '郭晓强': ['编程', '骑行', '旅游', '跑步']
python代码一段代码被划横线是什么原因 chrome python 有问必答爬虫
2021-11-30 12:48

回答 5 已采纳这个是提示这个函数已过期，但不影响运行！最好不要用，一般过期函数会有其替代的函数，你可以进入函数实现看看说明就知道了！如果是你来处理后续，我建议是这样做！
29、Python日常抓取数据的高效代码
2020-12-22 00:27

在Python编程中，高效地抓取和处理数据是日常任务之一。本文将介绍几种优化代码的方法，以提高Python在日常数据抓取中的性能。首先，我们来看优化代码1，涉及到了`BeautifulSoup`库用于HTML解析。`BeautifulSoup`...
用Python做一个求梯形面积的编程 python
2021-10-21 21:23

回答 3 已采纳 def S(a,b,h): s = (a + b) * h / 2 return s a = float(input("请输入梯形的上低:")) b = float(input("请输
怎么用Python或者R求某个变量的数学期望？ python r语言有问必答
2022-04-04 21:37

回答 2 已采纳等概率的直接用mean函数就可以，不等概率的就用矩阵点乘就可以.dot
【Python】这段代码该怎么改呀 python
2022-04-17 18:35

回答 1 已采纳看你的报错是显示numpy没有安装。你执行pip install numpy建议：你的数据量很大的话，最好是先读取少量数据，看是否能正常结束。
全国青少年编程Python编程四级试卷1及答案.docx
2023-06-13 18:03

全国青少年编程Python编程四级试卷主要考察了Python编程的基础知识，包括数据结构、算法、程序设计以及计算机系统原理等。以下是试卷中的几个关键知识点详解： 1. **栈的性质**： - 栈是一种后进先出（LIFO）的...
python每次打开要重新跑代码 python r语言有问必答
2022-04-05 12:26

回答 2 已采纳这个应该是工作空间（workspace）保存的问题，R语言本身就提供这一功能（在退出时会询问是否保存工作空间），而python没有解决方法可以考虑借助dill模块，退出时保存工作空间（dump_ses
用Python循环提取每个月的数据 python 有问必答
2022-06-24 06:08

回答 6 已采纳假如是如2020-01-01这样日期数据，可使用pandas提取。样例数据： date,open,close,high,low,volume 2021-01-04,4.31,4.42,4.45,4.3
初步编程Python，求解均值数据 python 有问必答
2021-08-06 13:41

回答 2 已采纳 invalid snytax提示一般是语法问题。检查代码是否写错了。fo.write()方法少写了右括号。如有帮助，望【采纳】。
Python代码库：Python代码段Python程序的源代码
2021-02-20 03:42

Python代码库是一个集合，其中包含了各种Python编程语言的代码片段和程序源代码。这些资源对于开发者来说是极其宝贵的，它们可以作为学习、参考和解决实际问题的工具。Python作为一种高级编程语言，以其简洁的语法、...
我用python写入excel, 代码是正确的但是excel没反应 python
2022-01-21 20:07

回答 1 已采纳成功了，那就有新文件， excel 不会有啥反应的。
测试-python基础阶段学习源代码
2022-03-28 14:36

Python是一种广泛应用于软件开发、数据分析、人工智能等多个领域的高级编程语言，尤其在测试工程师的日常工作中，掌握Python基础知识是至关重要的。这份"测试-python基础阶段学习源代码"集合了Python入门阶段的关键...
编程小白学习python入门教程
2023-10-11 18:43

【Python编程语言基础】 Python是一种高级编程语言，以其简洁易读的语法和强大的功能而闻名。对于编程小白来说，Python是理想的入门选择，因为它降低了学习编程的门槛，使得初学者可以快速理解编程概念并编写出实际...
没有解决我的问题, 去提问