DolphinScheduler调用Shell脚本，从ES拉取数据到Hive。

问题遇到的现象和发生背景

用DolphinScheduler调度调用Shell脚本，Shell脚本内调用的是Hql脚本，Hql的作用是从es拉取数据到hive。

代码

#!/bin/bash

hive=/opt/cloudera/parcels/CDH/lib/hive/bin/hive

dateTime=2022.10.19
dt=20221019

ES_NODE=10.6.111.162:9200,10.6.111.163:9200,10.6.111.164:9200,10.6.111.228:9200,10.6.112.219:9200,10.6.112.220:9200
ES_USER=developer6
ES_PASSWD=p7anxylcSRVRRyzwIybL

sql="
add jar hdfs://TdpHdfsCluster/user/tdp/jars/hive/elasticsearch-hadoop-7.17.5.jar;


drop table if exists xll.op_tmp_base_es_${dt};
create table xll.op_tmp_base_es_${dt} (
waybillno string,
opcode bigint,
pdadevicetype string,
sourceip string,
requesturi string,
pdadeviceno string,
pdaversionno string
) 
 ROW FORMAT SERDE 'org.elasticsearch.hadoop.hive.EsSerDe'
stored by 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '111.6.111.162:9200,111.6.111.163:9200,111.6.111.164:9200,111.6.111.228:9200,111.6.112.219:9200,111.6.112.220:9200',
'es.index.auto.create' = 'false',
'es.resource' = 'exp_pda_op_log-${dateTime}/_doc',
'es.net.http.auth.user' = 'esUser',
'es.net.http.auth.pass' = '1234567',
'es.read.metadata' = 'true',
'es.mapping.id' = 'id',
'es.mapping.names'='waybillno:waybillNo,opcode:opCode,pdadevicetype:pdaDeviceType,sourceip:sourceIp,requesturi:requestURI,pdadeviceno:pdaDeviceNo,pdaversionno:pdaVersionNo'
);

create table if not exists xll.dim_op_base_hive_1(
waybillno string,
opcode bigint,
pdadevicetype string,
sourceip string,
requesturi string,
pdadeviceno string,
pdaversionno string
) 
partitioned by (dt string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'hdfs://TdpHdfsCluster/user/hive/warehouse/xll.db/source/dim_op_base_hive_1';
  
 
set hive.exec.reducers.bytes.per.reducer=256000000;
set hive.exec.reducers.max=20;


insert overwrite table xll.dim_op_base_hive_1 partition(dt = '${dt}')
select * from xll.op_tmp_base_es_${dt} limit 10;


drop table if exists xll.op_tmp_base_es_${dt};
"

echo "当前日期为:${dateTime},分区时间为:${dt}"
echo "es集群节点为:${ES_NODE},用户名为:${ES_USER},密码为:${ES_PASSWD}"

$hive -e "$sql"

运行结果及报错内容

[INFO] 2022-10-21 16:32:18.881 TaskLogLogger-class org.apache.dolphinscheduler.plugin.task.shell.ShellTask:[66] - -> 22/10/21 16:32:18 WARN rest.RestClient: Could not verify server is Elasticsearch! ES-Hadoop will require server validation when connecting to an Elasticsearch cluster if that Elasticsearch cluster is v7.14 and up.
翻译：RestClient:无法验证服务器是Elasticsearch!如果Elasticsearch集群是v7.14及以上版本，ES-Hadoop在连接到该Elasticsearch集群时将需要服务器验证。

sql脚本在dbeaver上是可以运行的，也没有连接es的问题。

期望

希望脚本可以运行成功。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Adobee Chen 2022-10-23 16:21
关注
这是elasticsearch-hadoop RestClient部分的源码,https://github.com/elastic/elasticsearch-hadoop/blob/main/mr/src/main/java/org/elasticsearch/hadoop/rest/RestClient.java

根据源码看 static final String ELASTIC_PRODUCT_HEADER = "X-elastic-product";

结论： Http 响应 header中没有加X-elastic-product,是warn不是error不影响程序执行

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

DolphinScheduler调用Shell脚本，从ES拉取数据到Hive。 elasticsearch hive
2022-10-21 17:22

回答 2 已采纳这是elasticsearch-hadoop RestClient部分的源码,https://github.com/elastic/elasticsearch-hadoop/blob/main/mr
kafka拉取不到数据 java kafka 分布式有问必答
2022-02-16 19:32

回答 4 已采纳重新开一个topic，然后先启动consumer，再启动producer，再发消息，你这个可能是consumer已经在broker里有了自己的offset，就会读不到之前producer发送到brok
gateway未能实现到nacos拉取配置完成向nacos注册 gateway java spring cloud
2023-02-12 10:37

回答 6 已采纳试试在bootstrap内加入nacos:discovery:server-addr cloud: nacos: discovery: server-addr: l
Dolphinscheduler3.0源码分析
2022-08-05 16:22

仔仔1993的博客研究Dolphinscheduler也是机缘巧合，平时负责基于xxl-job二次开发出来的调度平台，因为遇到了并发性能瓶颈，到了不得不优化重构的地步，所以搜索市面上应用较广的调度平台以借鉴优化思路。在阅读完DolphinScheduler...
小程序如何用接口拉取数据，然后通过properties传入并渲染自定义组件？ javascript 小程序微信小程序有问必答
2021-09-01 11:00

回答 1 已采纳微信小程序调用接口拉取数据 wx.request({ url: '', //这是api接口 data: { //前端向后端发送的数据 },
拉取代码获取不到更新 git idea java
2022-06-08 14:46

回答 2 已采纳 1、下载代码到本地git fetch --all ，2、git reset --hard origin/master #（origin/master 是你所需要更新的分支，把HEAD指向最新下载的版本
关于从码云拉取本地的问题 git github
2023-03-07 09:29

回答 2 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果你已经从码云上拉取了第一个项目，并在本地成功地进行了配置和操作，那么你不需要再新建一个项目去拉取第二个项目。可以在已经建立好的本地项目中，直接使用git工具拉取第二个项
datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)
2022-11-19 22:44

tuoluzhe8521的博客主要解决datax连接mongodb出现Unauthorized问题，和datax增量同步mongodb问题，以及充分利用hive动态分区实现批量同步
idea从git拉取项目会显示要安装git git idea java
2021-09-16 10:00

回答 3 已采纳 idea要配置git路径，参考下别人的方法 IDEA中配置git并提交本地仓库_学无止境-CSDN博客 IDEA中配置gitidea中配置g
从网上拉取的项目，用npm run serve命令打不开 npm vue.js webpack
2021-08-05 14:59

回答 3 已采纳嗯，你没有配那个那个脚本命令应该是不能用的。只能用这些，刚拉的项目需要先 install，而且，本地需要Node.环境，install 之后你可以这样试试 npm run start
docker 内存炸了。怎么办啊,拉取ES拉不了，提示no space left on device elasticsearch 容器有问必答
2021-11-20 13:43

回答 1 已采纳根目录空间不足，增大空间。https://blog.csdn.net/Qevery678/article/details/94382130?utm_source=app&app_version=4.1
大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经
2021-12-05 15:47

For Coding的博客 大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经
jenkins启动命令行执行脚本时, 下载的文件保存在哪里 jenkins python
2022-07-27 17:08

回答 4 已采纳解决方法 jenkins网页上查看下你的主目录即可。具体步骤1、点击 Dashboard 2、点击系统管理 3、点击系统配置下的系统配置,这里面配置全局设置和路径进去查看下你的主目录在什
Log4j2自定义Appender将日志写入到ElasticSearch
2022-08-04 16:12

动力暖暖的博客海豚调度DolpinScheduler做任务调度。流程是提交一个shell 到海豚，shell里使用 spark-submit 提交 java 程序，然后使用海豚的api 去获取日志,log4j2自定义appender
数据分析大数据面试题大杂烩02
2021-03-09 16:30

爱学习的菜鸟罢了的博客 Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月21日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵