时间序列数据，python预处理

类似于图片的时间序列数据，这是我EXCEL处理完毕的。

拿到数据之后需要做三件事，第一件，检查数据缺失情况，序列是每周一个数据，如果发现上下两个数据之间缺少一周数据，那么插入一条数据，数值为上下两条记录值的均值。最大可能连续缺失两个数据。

第二，检查日期是否为周五，如果不是周五把日期修正为周五，（最近的没数据的周五）

第三，如果一年周五的周数有53周，那么将52周和53周数据去掉。用51周和第二年第一周数据平均，记为52周数据，日期为51周和第二年第一周中间（不要求周五）

还有一个问题，就是要解决类似上述问题，有什么书或资源推荐？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

ProfSnail 2021-02-19 11:57

关注

代码编辑完成，基本实现三个需求。

# coding='utf-8'

import os
import datetime
import shutil
import openpyxl
from openpyxl import load_workbook

pathOri = r'C:\Coding\Python\CSDN\dateSequence'

xlsxName = 'input.xlsx'
outputName = 'output.xlsx'

def getDate(value):
	# 因为excel里面保存的可能是日期格式，也可能是字符串形式。
	if(str(value.__class__) == "<class 'datetime.datetime'>"):
		# datetime.datetime格式
		return value
	else:
		# 字符串格式。
		value_list = value.split('/')
		year = int(value_list[0])
		month = int(value_list[1])
		day = int(value_list[2])
		rowDay = datetime.date(year, month, day)
		return rowDay



def dealEachSheet(inputSheet, outputSheet):
	inputRows = inputSheet.max_row
	inputCols = inputSheet.max_column
	# 将表头原样复制到新文件中
	for i in range(1, 3):
		for j in range(1, inputCols+1):
			outputSheet.cell(row=i, column=j).value = inputSheet.cell(i, j).value

	outputSheet.cell(row=1, column=3).value = "周"
	outputSheet.cell(row=1, column=4).value = "星期"

	# 假设日期是第二列
	dateColumn = 1
	valueColumn = dateColumn + 1
	weekIndexColumn = dateColumn + 2
	weekdayColumn = dateColumn + 3


	valueDict = {}

	# 记下来上一条记录是几月几号
	lastDate = None
	for i in range(3, inputRows+1):
		eachDate = getDate(inputSheet.cell(i, dateColumn).value)
		if(eachDate.weekday() != 4):
			# 因为是从上到下遍历，所以如果不是周五，则优先填充上一周。
			if eachDate.weekday() < 4:
				eachDate = eachDate + datetime.timedelta(days=-3-eachDate.weekday())
			else:
				eachDate = eachDate + datetime.timedelta(days=4-eachDate.weekday())
			# 填充上一周
			if(eachDate != lastDate):
				pass
			# 填充到这一周
			else:
				eachDate = eachDate + datetime.timedelta(days=7)
			inputSheet.cell(i, dateColumn).value = eachDate
		valueDict[eachDate] = inputSheet.cell(i, valueColumn).value


	startDate = getDate(inputSheet.cell(3, 1).value)
	endDate = getDate(inputSheet.cell(inputRows, 1).value)

	week53Dates = []

	eachDate = startDate
	lastDate = eachDate
	while eachDate != endDate:
		# 遍历所有的周五，进行数据插值
		eachDate = eachDate + datetime.timedelta(days=7)
		if eachDate not in valueDict.keys():
			# 如果这一周是个缺失数值，则找到字典中有数值的上一个和下一个，并取这两个数值的平均数
			# 如果有多个缺失值，比如说是1 缺失 缺失 缺失 10
			# 则首先补充第一个，补充为  1 5.5 缺失 缺失 10
			# 接下来补充第二个，补充为  1 5.5 7.75 缺失 10
			# 接下来补充第三个，补充为  1 5.5 7.75 8.875 10
			# 采用的是二分插值方法。
			# 因为每次填充之后，上一个日期总是在列表中的，所以只需要找到下一个进行插分即可。
			nextDate = eachDate + datetime.timedelta(days=7)
			while nextDate not in valueDict.keys():
				nextDate = nextDate + datetime.timedelta(days=7)
			valueDict[eachDate] = (valueDict[lastDate] + valueDict[nextDate]) / 2;
		lastDate = eachDate
		# 在这次遍历中，同时记录一下有53周的日期
		if eachDate.isocalendar()[1] == 53:
			week53Dates.append(eachDate)

	# 如果有53周，则用51周五和第二年第一周的日期中间值进行替代。
	for eachWeek53Date in week53Dates:
		# 第二年第一周周五
		week1date = eachWeek53Date + datetime.timedelta(days=7)
		# 第一年第51周周五
		week51date = eachWeek53Date + datetime.timedelta(days=-14)
		# 第一年第52周周五
		week52date = eachWeek53Date + datetime.timedelta(days=-7)
		diff = (week1date - week51date) / 2

		# 计算51周周五和第二年第一周周五的中间那一天
		midDate = week51date + datetime.timedelta(days=diff.days)
		# 计算中间那一天的数值
		midValue = (valueDict[week51date] + valueDict[week1date]) / 2
		# 删除第52周和53周
		valueDict.pop(eachWeek53Date)
		valueDict.pop(week52date)
		valueDict[midDate] = midValue

	keys = sorted(valueDict)

	id = 3
	weekDict = {0:'星期一',1:'星期二',2:'星期三',3:'星期四',4:'星期五',5:'星期六',6:'星期日'}
	for key in keys:
		outputSheet.cell(id, dateColumn).value = key.strftime('%Y/%m/%d')
		outputSheet.cell(id, valueColumn).value = valueDict[key]
		outputSheet.cell(id, weekIndexColumn).value = key.isocalendar()[1]
		outputSheet.cell(id, weekdayColumn).value = weekDict[key.weekday()]
		id += 1

def main():
	# 读取文件
	# 因为原始数据中有许多地方是用公式进行计算得到的，需要指定data_only=True使得读入的时候就是完整的数值。
	# 比如A286=A285+7等
	inputWorkbook = load_workbook(os.path.join(pathOri, xlsxName), data_only=True)
	inputSheet = inputWorkbook[inputWorkbook.sheetnames[0]]

	# 输出文件
	outputWorkbook = openpyxl.Workbook()
	outputSheet = outputWorkbook.active
	outputSheet.title = inputWorkbook.sheetnames[0]

	# 处理文件
	dealEachSheet(inputSheet, outputSheet)
	for i in range(1, len(inputWorkbook.sheetnames)):
		sheetName = inputWorkbook.sheetnames[i]
		inputSheet = inputWorkbook[sheetName]
		outputSheet = outputWorkbook.create_sheet(sheetName)
		dealEachSheet(inputSheet, outputSheet)

	outputWorkbook.save(os.path.join(pathOri, outputName))


if __name__ == '__main__':
	main()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

python新手数据预处理案例练习
2021-04-03 22:03

在Python编程语言中，数据预处理是数据分析流程中至关重要的一步，它为后续的数据建模和洞察挖掘奠定基础。对于新手来说，理解并掌握数据预处理技能是成为合格的数据分析师或科学家的关键。以下是对给定的四个案例的...
Python预处理时间序列数据的方法汇总
2022-08-04 09:20

欣一2002的博客 时间序列数据随处可见，要进行时间序列分析，我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中，我们将主要讨论以下几点：时间序列数据的定义及其重要性。时间序列数据的...
Python数据清洗预处理[源码]
2025-11-12 17:01

随着数据科学和机器学习项目的不断发展，Python数据清洗预处理的能力也在不断增强。不仅库的数量和质量在提升，而且社区也在不断增长，从而提供了大量的资源和讨论，以支持数据科学项目的成功实施。掌握Python进行...
深度学习基于LSTM的时间序列预测Python实现：从数据预处理到模型训练与评估
2025-04-19 07:08

内容概要：本文档是关于使用Python中的LSTM进行时间序列预测的详细指南，涵盖从数据准备到模型训练与评估的全过程。首先介绍如何导入必要的库并创建示例数据或加载自定义数据，接着对数据进行预处理，包括归一化和...
基于lstm时间序列预测python DEMO
2025-04-20 22:16

lstm时间序列预测python 依赖 numpy>=1.19.2 tensorflow>=2.4.0 scikit-learn>=0.24.0 matplotlib>=3.3.2 这个demo包含以下主要部分：数据生成：使用正弦函数生成合成数据，并添加一些随机噪声数据预处理：使用...
Python数据预处理.rar_Python数据处理_python_python 预处理_数据清洗_数据预处理
2022-07-15 08:13

本资源“Python数据预处理.rar”提供了一系列Python数据处理的实例，涵盖了数据清洗、数据整合和数据变换等核心环节。以下是这些知识点的详细说明： 1. **数据清洗**：数据清洗是指识别并修正或删除数据集中的错误...
时间序列分析-基于Python例题与习题数据文件
2024-10-17 11:47

具体来说，这些练习将涉及到时间序列数据的读取、预处理、模型构建、参数估计以及预测等关键步骤。在这个数据文件中，用户将会接触到几种不同的数据文件格式。首先是“习题数据（基于R，EXCEL格式）”，这表明文件...
【遥感图像处理】基于NumPy的时间序列图像数据预处理与增强：标准化、重排及谐波添加方法实现
2025-07-15 11:15

本文讨论了一种基于Python中NumPy库的时间序列图像数据预处理与增强方法，包括标准化、重排和谐波添加等关键技术。首先，标准化是预处理中的一个关键步骤，它主要涉及到均值和方差的计算。对于不同的标准化需求，...
python利用支持向量机SVM进行时间序列预测（数据+源码）
2022-04-18 23:14

在本主题中，我们将深入探讨如何使用Python和SVM来预测时间序列数据，同时结合提供的`demo.py`源代码和`data.xlsx`数据文件。 时间序列预测是对过去数据趋势的连续分析，用于预测未来的值。它在许多领域如金融、...
Python时间序列预测入门
2025-11-05 01:15

《Python时间序列预测入门》是一本面向数据科学家和机器学习工程师的实用指南，它旨在通过系统性的教学和案例分析，帮助读者在时间序列预测领域取得实战技能的提升。通过本书的学习，读者将能够掌握使用Python进行...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

时间序列数据，python预处理

5条回答默认最新

码龄粉丝数原力等级 --

时间序列数据，python预处理

5条回答 默认 最新

5条回答默认最新