大数据的数据清洗,是应该先根据简单的逻辑清洗好数据然后入hdfs,还是直接把原始直接入hdfs

今天公司商量大数据的架构,都认为应该要先清洗数据然后把清洗好的数据入到hbase.说是这样节省磁盘空间。我认为这样做的话，没有发挥hdfs的实际作用。应该是先把原始数据直接入到hdfs，再通过hive和mapreduce做数据的清洗入到hbase。
这里用hive还是mapreduce具体应该看业务逻辑是否复杂。请问大家我说的对不对？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

HDFS集群数据迁移怎么做？ hdfs 大数据
2022-11-03 17:15

回答 2 已采纳 hadoop distcp webhdfs://源集群:50070/源目录 webhdfs://目标集群:50070/目标目录
直接将hbase数据存磁盘和存hdfs的区别是什么？ hbase
2021-07-08 10:38

回答 2 已采纳 hdfs和磁盘的区别在于 hdfs从设计上存在分布式高可用可控副本数，Block块等特别，磁盘目前还无法满足，且生态上目前都是兼容hdfs而不是磁盘。存储的设计底层还是数据结构不一样，可以从这方向思
Python 处理HDFS log 数据 hdfs python
2023-01-18 04:55

回答 2 已采纳您好，我看了这个LOG数据，如果使用切分字符串的方法，2000行里最长的共有111个字段。最关键的是会有数字类型和文本类型组合成文本类型，而这部分是字符串切割无法区分的。所以正则还是香呀，一步到位 i
大数据入门之 Hadoop,HDFS,Hbase,Hive
2022-10-03 23:00

Frank范的博客 Hadoop：是泛指大数据生态，实际上基本包括存储(HDFS) + 计算(MapReduce); HDFS: Hadoop分布式文件系统，主要是解决存储的问题; Hbase: 基于Hadoop的高性能nosql数据库; Hive: 最常用的数据仓库;
hdfs sink基于时间、数据大小、数据量将临时文件滚动成目标文件的参数分别是什么 flume
2022-12-30 16:32

回答 1 已采纳如果参数为n，就是按照n条生成一个文件 a1.sinks.k1.hdfs.rollCount = 10000 #这个参数是hdfs下文件sink的数据size。每sink 32MB的数据，自动生成一
hadoop hdfs dfs没有任何反应？ hadoop hdfs 大数据
2022-10-04 19:13

回答 1 已采纳不是没有反应，而是目录下没有文件，所以ls后没有内容可以显示，可以试试ls /
hive分区表数据备份到HDFS hive 有问必答
2021-08-02 14:12

回答 1 已采纳有了有了，谢谢大家，是我自己疏忽了。导入HDFS本地文件系统也是需要加local的，我以为本地文件系统是计算机文件系统正确代码:insert overwrite local directory。一定要
【2019全国职业技能大赛大数据技术】任务三：4-数据清洗与分析（25分_题目+答案＜图片+分值＞）
2021-04-05 14:24

濯一一的博客现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性...
有200M的文件 ?写入HDFS是先写128M ?复制完之后再写72M ?还是全部写完再复制？大数据
2022-10-24 11:26

回答 1 已采纳 HDFS上在写入数据的时候，首先会对数据切块，然后从客户端到datanode形成一个管道，在至少将一个文件写入hdfs上后，表示文件写入成功，然后进行复制备份操作，所以是全部写完再复制。学习可关注：人
自己搭建云平台，怎么将网关的数据发送给hdfs进行处理 hdfs mysql 服务器
2016-03-31 02:32

回答 1 已采纳大哥，这个得调用HDFS的API接口才能实现，得调用以下几个jar包，然后在本地用java写代码才能实现本地文件上传到hadoop中。 import org.apache.hadoop.conf.C
[HDFS]hive表文件下的.metadata文件夹是什么？ hdfs hive java sqoop 大数据
2018-06-13 06:26

回答 1 已采纳 metadata就是元数据，用来存放表结构、字段信息之类的，用来描述数据的数据。另外eclipse也有自己的metadata，你要看看是哪个metadata缺失了。
【2019全国职业技能大赛大数据技术】任务三：6-数据清洗与分析（25分_题目+答案＜图片+分值＞）
2021-04-05 14:50

濯一一的博客【题目】 3、原始数据集来自于多个平台及...请以上述 1 、（题目数字编号）任务结果数据集作为输入数据源/hotelsparktask1，编写 Spark 程序，按照如下要求实现对数据的清洗，并将结果输出至 HDFS 文件系统中/hotels
HDFS排除AddblockRequestProto中的数据节点 hadoop hdfs
2016-11-08 06:12

回答 1 已采纳 I found the solution that, first abandon the block and then request the new block. In the previous
大数据学习之数据仓库
2023-03-13 18:12

煜筱子的博客 2.2 源数据源数据是指用于分析的原始数据，这一步主要是根据分析需求确定源数据，这个数据分布在内部系统和外部分系统中，内部数据主要是企业ERP系统、外部数据是指企业外部分系统所产生的数据，通常是指行业数据...
基于Hadoop的MapReduce网站日志大数据分析（含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts）
2023-07-04 08:00

王小王-123的博客本项目首先将网站日志上传到HDFS分布式文件系统，然后使用MapReduce进行数据预处理。通过使用Hive进行大数据分析，我们能够对网站的PV、独立IP、用户注册数和跳出用户数等重要指标进行统计分析。最后，我们使用Sqoop...
没有解决我的问题, 去提问

悬赏问题

¥15 Fluent齿轮搅油
¥15 八爪鱼爬数据为什么自己停了
¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素

码龄粉丝数原力等级 --

大数据的数据清洗,是应该先根据简单的逻辑清洗好数据然后入hdfs,还是直接把原始直接入hdfs

0条回答

悬赏问题