已选:无人售卖机销售数据统计与分析
任务:通过ETL数据处理流程,整合无人售货机基础信息和销售交易数据,清洗异常数据,统计各售货机的销售情况,为运营决策提供数据支持。具体包括:
整合售货机基础信息与销售记录
清洗销售数据中的异常记录(如金额异常、时间格式错误等)
统计各售货机的销售总额、交易笔数、平均交易金额
生成标准化的销售统计报表Kettle(PDI)
一、主题
自主设计并实现一个完整的ETL数据处理项目(题目自拟、数据自选),需覆盖“数据抽取转换加载”全流程,结合实际业务场景解决具体数据问题,体现对Kettle核心组件、流程设计、数据处理逻辑的综合应用能力。
二、核心要求
1.选题要求
需结合实际业务场景(如电商数据统计、校园信息管理、政务数据整合、日志分析等),避免无意义的纯技术演示。
选题需具备唯一性,不允许重复
数据需具备一定复杂度(建议包含至少2个数据源,数据量不少于100条,包含数值、字符串、日期等多种字段类型,可含少量脏数据用于转换处理)。
2.ETL流程完整性要求
需完整实现以下ETL核心环节,每个环节需使用Kettle对应组件完成,禁止手动干预数据:
数据抽取(Extract):从至少1个不同类型的数据源抽取数据(可选:Excel、CSV、数据库表、文本文件、等),需包含动态参数配置(如按日期抽取、文件路径变量)。
数据转换(Transform):数据清洗、数据整合、数据计算、数据筛选、数据标准化),示例如下:
数据清洗:记录过滤(过滤脏数据);
数据整合:多表关联(内连接/左连接)、数据合并(追加/插入);
数据计算:分组统计(求和、均值、统计个数)、新增字段(计算器、增加常量)、数值运算(求和、平均值)、日期转换(格式标准化);
数据筛选:数据排序、条件过滤、数据拆分;
数据加载(Load):将转换后的数据加载到目标存储(可选:数据库表、Excel/CSV文件、数据库等)。
3.技术应用要求
需使用Kettle9.4版本完成,项目文件需包含完整的转换(.ktr)和(.kjb)文件(需串联多个转换,实现流程自动化)。
至少使用7种Kettle核心组件(示例:表输入、文本文件输入、过滤记录、计算器、字段选择、表输出、Excel输出、联合查询、唯一行、JavaScript脚本)。
三、提交材料及要求
1.提交内容
(1)附件
(2)转换文件
2
四、评分标准
评分维度 分值 评分细则
选题与数据 10分 选题贴合实际业务(5分),
数据复杂度达标(字段类型丰富、含脏数据)(5分)。
ETL流程
完整性 20分 抽取、转换、加载环节完整(10分),
与转换串联合理(10分)
组件配置与技术应用 30分 核心组件配置正确(15分),
组件种类达标(≥10种)(10分),
错误处理机制完善(5分)。
执行结果
与验证 25分 运行日志完整(5分),
目标数据正确(10分),
错误处理验证有效(10分)。
报告规范性 15分 结构清晰、图文并茂(5分),
配置描述具体(5分),
无格式错误、语言通顺(5分)。
创新性与
唯一性 加分项
(20分) 选题独特,或实现额外功能。
抄袭/雷同 扣分项 选题或核心代码雷同,按情节扣20-50分;
完全抄袭按0分处理