java解析orc格式文件设置谓词下推，过滤条件没有生效

java解析orc格式文件谓词下推

使用Java解析orc文件，设置谓词下推，并没有生效

SearchArgument sarg = SearchArgumentFactory
    .newBuilder(conf)
    .startAnd()
    .startNot()
    .lessThan("id", PredicateLeaf.Type.LONG, 100L)
    .end()
    .lessThan("id", PredicateLeaf.Type.LONG, 400L)
    .end()
    .build();
RecordReader rowIterator = reader
    .rows(reader.options()
    .range(0L, Long.MAX_VALUE)
    .include(new boolean[]{true, true, true, true, true})
    .searchArgument(sarg, new String[]{null, "id", "name", "age", "sex"}));

VectorizedRowBatch batch = reader.getSchema().createRowBatch();

while (rowIterator.nextBatch(batch)) {
    System.out.println(batch.toString())
}

但是从打印结果来看，不符合条件的数据也打印出来了，为什么？
谓词下推如何生效，百度google都试了，没有解决。求解谢谢！

0 stone_0 53 Y
.....

19 stone_19 50 X

20 stone_20 58 Y

21 stone_21 50 X

22 stone_22 55 Y

23 stone_23 58 X

24 stone_24 53 Y

25 stone_25 52 X

26 stone_26 57 Y

27 stone_27 58 X

28 stone_28 57 Y

29 stone_29 56 X

30 stone_30 50 Y

31 stone_31 55 X

32 stone_32 55 Y

33 stone_33 50 X

34 stone_34 57 Y

35 stone_35 52 X

36 stone_36 55 Y

....

999 stone_999 50 X

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
铁头乔 2019-02-21 10:31
关注
https://stackoverflow.com/questions/44691416/why-is-apache-orc-recordreader-searchargument-not-filtering-correctly

如果一个RowBatch可能有结果集，就把这个RowBatch全返回了，可能类似bloomfilter

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hl7消息体解析循环遍历的问题 java版 java
2018-06-29 06:12

回答 3 已采纳 public class StrSplite { public static void main(String[] args) { String myHL7string = "MSH|
Java程序输出结果的顺序不了解。求大神帮忙解释一下 java
2020-07-07 10:06

回答 1 已采纳因为刚开始传的你在new对象的时候已经传参数了，然后打印出来是Orc 12: I'm a Villain and my name is Limburger，后来你在原有的对象上面orc.Chang
字符串截取的问题?java java
2018-06-29 12:41

回答 7 已采纳 public static void main(String[] args) { // TODO Auto-generated method stub String s="ORC|NW|487
DataLake — 批流一体化的追风者(2) -- Delta Lake核心原理解析
2021-11-29 20:28

林夕_Yume的博客这个特性大部分的数据湖产品都会使用开源的存储模式，包括parquet、avro、orc等等，这里也是需要去和目前的文件格式进行统一的，没必要重复造轮子，复用即是最好的诠释。 2.7 记录更新和删除这个功能马上可以...
使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
录入一张日文的图片形式的医嘱单,如何将其转换成中文图片形式的医嘱单? java java-ee
2016-02-02 05:54

回答 3 已采纳 kao，还是日文的。这个需要ocr+翻译。但是不太建议，因为你这个是医疗领域，ocr和翻译都有误差，又有那么多专业术语，两个叠加起来要出人命的。还是让人来解决吧。
sparksql遇到一个无解问题：Caused by: org.apache.hadoop.ipc.RemoteException hive spark
2022-03-03 10:52

回答 1 已采纳建议百度。猜测是没有连接上。不好意思，这个没用过
大数据组件常见压缩策略和存储格式
2019-09-27 21:05

数据与后端架构提升之路的博客谓词下推，可以过滤掉不符合条件的数据，只读取需要的数据，进一步减少 IO 操作。更高效的压缩与编码：因为同一列的数据类型相同，所以可以针对不同列使用更合适的压缩与编码方式，降低磁盘存储空间。一个如下的 ...
DolphinScheduler调用Shell脚本，从ES拉取数据到Hive。 elasticsearch hive
2022-10-21 17:22

回答 2 已采纳这是elasticsearch-hadoop RestClient部分的源码,https://github.com/elastic/elasticsearch-hadoop/blob/main/mr
请问这是为什么FileNotFoundError: [Errno 2] No such file or directory: 'img_path' python
2022-07-25 23:16

回答 4 已采纳这里应该是引用的变量img_path把r’‘去掉
识别象棋python运行的疑问 python 计算机视觉
2022-08-08 19:44

回答 4 已采纳
一篇搞定，Kettle详细教程
2023-09-21 11:54

大数据东哥(Aidon)的博客本文主要以Kettle概述、Kettle开发环境部署、mac m1 kettle安装、linux kettle安装、kettle集群安装部署、kettle输入、kettle输出、kettle转换、kettle批量加载、kettle流程、kettle脚本、kettle的Java代码案例、...
使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
StarRocks企业级数据库
2023-08-11 17:09

AllenGd的博客（4）部署FE，修改配置文件，添加jvm参数，建议-Xmx参数设置到16G以上 [root@hadoop103 software]# cd /opt/module/StarRocks-1.19.1/fe/conf/ [root@hadoop103 conf]# vim fe.conf JAVA_OPTS = "-Xmx4096m -XX:+...
Hive 调优集锦，让 Hive 调优想法不再碎片化
2022-03-23 00:03

云祁的博客一、前言 1.1 概念 Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 ...CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive） 2．元数据：Metastore 元数据包括：表名、表所属的数据库（默认
数据湖Iceberg | Apache Iceberg快速入门
2021-04-06 00:21

大数据技术架构的博客 1 预备知识：File Format解读大家熟知的HDFS上的文件格式有Text、Json、Parquet、ORC等，另外，很多数据库系统中的数据都是以特有的文件格式存储，比如HBase的文件格式是HFile。这里就用大家熟知的Parquet来做说明...
Apache Doris 和 ClickHouse 的选型比较
2021-11-08 09:00

过往记忆的博客 ClickHouse部分支持SQL-2011 标准（https://clickhouse.tech/docs/en/sql-reference/ansi/），但是由于Planner的一些限制，ClickHouse的多表关联需要对SQL做大量改写工作，比如需要手动下推条件到子查询中，所以...
【硬刚大数据】从零到大数据专家之Apache Doris篇
2021-08-14 13:35

王知无(import_bigdata)的博客支持的数据格式有: CSV, Parquet, ORC等. 导入发起方式有: 用RESTful接口, 执行SQL命令. 数据导入的流程如下: ① 用户选择一台BE作为协调者, 发起数据导入请求, 传入数据格式, 数据源和标识此次数据导入的label, ...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

java解析orc格式文件设置谓词下推，过滤条件没有生效

java解析orc格式文件谓词下推

1条回答 默认 最新

悬赏问题

1条回答默认最新