ETL中如何进行跨库join

我有两个数据库，分别存放资金记录（有订单id）和订单详情（订单表中有很多无效订单，也就是没付钱的）。资金和订单是多对一的关系。现在我需要把他们匹配起来放入数据仓库。我想到的方案是先取前一天的所有资金记录，然后拿着订单id去订单库里查询，然后再join到一起。但是kettle提供的工具貌似要把所有订单都查出来然后由kettle来join，这样数据量有点大。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
首席IT民工 2020-11-13 17:25
关注
我看了下，这个差不多要逐行执行，如果表的数据比较多（例如A表有5万数据，B表有1万数据，但是B表只有100条数据是和A关联的），采用这个方法，需要对每行A表数据查一次库，没有没办只查一次（使用类似select * from table_b where id in （select fk from table_a）），然后在内存中join

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

ETL中如何进行跨库join sql
2020-11-09 16:07

回答 1 已采纳我看了下，这个差不多要逐行执行，如果表的数据比较多（例如A表有5万数据，B表有1万数据，但是B表只有100条数据是和A关联的），采用这个方法，需要对每行A表数据查一次库，没有没办只查一次（使用类似se
使用 kettle 进行资源库导入时报错 etl etl工程师大数据
2022-11-04 09:57

回答 1 已采纳我去，忙一天。重新建一个数据库好了，问题原因可能在这里第一次建立数据库的时候我点了是，之后就无法导入；第二次我重新建数据库，这里没有管，导入成功了
Java建议转大数据吗本科 etl工程师大数据数据库开发
2022-07-02 22:58

回答 2 已采纳你所搜的岗位都有，但是每个岗位的工作内容有很大的区别比如大数据开发工程师，这是一个比较宽泛的定义，没有具体到岗位职责，可以是etl工程师，也可以是大数据平台开发，也可以是大数据实时开发，也有大数据运维
大数据之数据仓库
2022-11-24 19:30

Javatomcat12138的博客数据库（Database）是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。...数据仓库研究和解决从和数据库中获取信息的问题。
ETL工程师主要是做什么的？ mysql
2022-07-06 00:16

回答 1 已采纳一、ETL工程师主要做：通俗一点讲就是，对数据进行清洗，处理，加工，结构化。官方解释：ETL分为三个阶段，Extraction 抽取，Transformation 转换，Loading 加载。从不同数
用KETTLE代替SQL代码进行子查询。 etl sql 数据仓库
2021-08-04 10:03

回答 5 已采纳经过不懈努力，自己摸索出来了。这社区废了，没悬赏就没人理的
数据仓库、Apache hive hive 数据仓库
2023-02-27 14:43

回答 1 已采纳 DataGrip是一个数据库管理工具，主要用于连接和管理多种关系型数据库，例如MySQL、Oracle、PostgreSQL等。它提供了一系列的工具和功能，可以帮助用户管理数据库结构、编辑SQL语句、
join left 大数据_大数据 join 开销
2021-01-14 03:48

梦想是世界和平的博客 SQL Server-聚焦INNER JOIN AND IN性能分析(十四)前言本节我们来讲讲联接综合知识，我们在大多教程或理论书上都在讲用哪好，哪个性能不如哪个的性能，但是真正讲到问题的实质却不是太多，所以才有了本系列每一篇的...
如何一次删除多栏位（rows） etl工程师 python 大数据
2022-11-11 21:46

回答 8 已采纳很简单df.drop(df.index[df['Rating']=='Jacksonville FL'],inplace=True)不过我觉得应该还可以这样，转换类型的时候过滤掉不是数字的行。就不用再
kettle没有表输入表输出控件怎么办 etl mysql 大数据
2022-08-11 14:36

回答 2 已采纳目测你这个新建的是“任务”，所以没有，新建一个“转换”再看看。转换和任务的图标是不一样的：
出现这种错误是怎么回事啊 etl 数据仓库有问必答
2022-04-11 20:40

回答 3 已采纳你这是sql里的变量没替换掉吧,数据库抛出的语法错误提示你执行的sql长这样这当然不能执行呀,你得把具体的表名字段名还有where条件放进去
ETL&数据仓库复习
2022-04-23 20:44

爱敲代码的小黑的博客文章目录ETL1.1、岗位所需技能点数据分析师2.1、岗位所需技能点数据仓库3.1、岗位所需技能点1、数据仓库1.1、数据仓库与数据库区别1.2、数据仓库分层架构1.3 、为什么要分层1.4、维度数据模型1.4.1、简介1.4.2 维度...
kettle中报错ora00600 etl sql 大数据
2022-03-16 14:25

回答 2 已采纳已解决，先声明这条原始语句不加+OPT_PARAM('_optimizer_cost_based_transformation' 'off')/在数据库查询是完全正常的，只是在kettle中报错，加上
ETL(大数据)测试实战篇（一）
2020-05-13 17:00

Wu_Candy的博客进入大数据测试领域已有近1年时间，今天特意梳理了在项目实践中针对大数据测试方面的一些有效流程和方法，希望与君共勉~ 今日分享的文章内容，主要包含：测试数据准备 etl测试计划执行 01、测试数据准备...
ETL工程师面试题
2023-11-02 13:38

IT北辰的博客然后将表中的数据进行分析筛选得到需要的字段，这些字段分布在不同的表中，通过表连接将这些表连接在一起，用case when 进行指标分级，然后将查询出来的结果集子查询，最后通过各指标的权重进行计算得到每个用户的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月5日

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

ETL中如何进行跨库join

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新