贾斯汀玛尔斯 2024-04-02 14:24 采纳率: 0%
浏览 9

大数据之湖仓一体,未来如何发展

你用过paimon和amoro

Paimon 整体的优势:

1、Paimon 基于 数据湖 + LSM,有很强的 Upsert 更新能力,有天然的 DataSkipping 能力。

2、Paimon 从 Flink 中孵化出来,支持 Flink SQL 所有特性,包括 Flink CDC,Spark 也是生态中必须的一环,所以 Paimon 从一开始就面向多计算引擎。

3、Paimon 原生面向实时数据湖场景进行设计,能够大幅提升数据湖全链路的数据新鲜度,快速迭代,快速发展。

4、Paimon 项目由国人发起和主导,具备更好的本地化支持 (请加钉钉讨论群)。

最大的好处其实还是没有包袱,从零设计的向前走,流式数据湖到今天依然有非常多的问题需要解决,如果是拉着大车往前走,走的很慢,走的很艰难,而 Paimon 的使命只有一个:流式数据湖。

  • 写回答

3条回答 默认 最新

  • Kwan的解忧杂货铺 Java领域优质创作者 2024-04-02 14:24
    关注

    下午好🌅🌅🌅
    本答案参考ChatGPT-3.5

    大数据湖仓一体的发展方向主要包括以下几个方面:

    1. 增加数据湖的实时性和数据新鲜度:实时数据湖能够及时处理和分析新产生的数据,从而为企业提供及时的决策支持。为了实现实时数据湖,可以采用流式计算引擎如Flink、Spark等,结合数据湖架构进行设计,保证数据的及时性。

    2. 提升数据湖的数据存储和访问效率:数据湖仓一体需要具备高效的数据存储和访问能力。可以采用基于数据湖建模的LSM存储引擎,通过Upsert更新能力和DataSkipping技术来提升数据的存储和访问效率。

    3. 支持多计算引擎:为了适应不同的计算需求,数据湖仓一体需要支持多种计算引擎,如Flink SQL、Spark等。这样可以在不同的场景下使用合适的计算引擎,提供更好的计算能力。

    4. 本地化支持和集成生态:数据湖仓一体项目由国人发起和主导,可以提供更好的本地化支持。同时,与大数据生态系统的其他组件如Hadoop、Hive、HBase等进行集成,实现数据的无缝交互和共享。

    综上所述,数据湖仓一体的未来发展应该注重实时性、存储和访问效率的提升,支持多计算引擎,同时提供本地化支持和与生态系统的集成。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 4月2日

悬赏问题

  • ¥15 基于卷积神经网络的声纹识别
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP
  • ¥15 Python turtle 画图
  • ¥15 stm32开发clion时遇到的编译问题