flink1.15读取hdfs目录文件

我需要使用flink1.15去读取hdfs目录下的parquet文件，并且将其转为hfile，请问有合适的样例不，非常感谢

不要chatgpt生成的哈需要能跑的，另外请附上pom依赖！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

肩匣与橘游戏开发领域新星创作者 2023-05-15 09:47

关注

直接就是上代码：

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.core.fs.Path;
import org.apache.flink.formats.parquet.avro.ParquetAvroWriters;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.fs.StringWriter;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.parquet.avro.AvroParquetReader;
import org.apache.parquet.hadoop.ParquetFileReader;
import org.apache.parquet.hadoop.api.ReadSupport;
import org.apache.parquet.hadoop.metadata.ParquetMetadata;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;
import java.io.IOException;
public class ParquetToHFile {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 读取Parquet文件
        DataStream<String> parquetDataStream = env.readTextFile("hdfs://your-hdfs-path/*.parquet");
        // 将Parquet数据转换为HFile
        DataStream<Put> hfileDataStream = parquetDataStream.map(new MapFunction<String, Put>() {
            @Override
            public Put map(String value) throws Exception {
                // 从Parquet文件中读取Avro记录
                Configuration conf = new Configuration();
                Path parquetFilePath = new Path(value);
                ParquetMetadata parquetMetadata = ParquetFileReader.readFooter(conf, parquetFilePath);
                MessageType schema = parquetMetadata.getFileMetaData().getSchema();
                ReadSupport<Object> readSupport = new AvroReadSupport<>(schema);
                ParquetFileReader reader = new ParquetFileReader(conf, parquetFilePath, parquetMetadata);
                try (ParquetRecordReader<Object> recordReader = new AvroParquetReader<>(reader, readSupport)) {
                    Object record = null;
                    while ((record = recordReader.read()) != null) {
                        // 将Avro记录转换为HBase Put
                        Put put = new Put(Bytes.toBytes(record.get("rowkey")));
                        for (String column : schema.getFields()) {
                            String value = record.get(column).toString();
                            put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes(column), Bytes.toBytes(value));
                        }
                        return put;
                    }
                }
                return null;
            }
        });
        // 将HFile数据写入HDFS
        Configuration hbaseConf = HBaseConfiguration.create();
        hbaseConf.set("hbase.zookeeper.quorum", "zk1,zk2,zk3"); // 替换为您的Zookeeper地址
        Path hfilePath = new Path("/your-hdfs-path/hfile");
        hfileDataStream
                .map(new MapFunction<Put, Tuple2<ImmutableBytesWritable, Put>>() {
                    @Override
                    public Tuple2<ImmutableBytesWritable, Put> map(Put value) throws Exception {
                        return new Tuple2<>(new ImmutableBytesWritable(value.getRow()), value);
                    }
                })
                .writeUsingOutputFormat(HFileOutputFormat2.configure()
                        .withTable("your-table-name") // 替换为您的HBase表名
                        .withConfiguration(hbaseConf)
                        .withOutputPath(hfilePath)
                        .build())
                .setParallelism(1);
        env.execute("ParquetToHFile");
    }
}

读取HDFS中所有Parquet文件，将其转换为HBase的HFile格式，并将其写入HDFS中。
xml文件包含的依赖依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-core</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-hadoop-fs</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-hbase_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-parquet_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-avro</artifactId>
    <version>${parquet.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-hadoop</artifactId>
    <version>${parquet.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-protobuf</artifactId>
    <version>${parquet.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-column</artifactId>
    <version>${parquet.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-common</artifactId>
    <version>${parquet.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>${hadoop.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>${hadoop.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hbase-client</artifactId>
    <version>${hbase.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hbase</artifactId>
    <version>${hbase.version}</version>
</dependency>

报告相同问题？

关注问题

flink跑jar，需要读取csv文件 flink 大数据
2021-12-15 18:57

回答 1 已采纳异常描述的很清楚，文件不存在或者flink没有读取权限
flinksql读取kafka数据报错 flink kafka
2022-07-13 20:33

回答 3 已采纳 restclient异常，先看看taskmanager和jobmanager是否正常，然后你可以在jobmanager的节点上访问webUI查看job状态，又或者直接查看宿主机上的日志排查问题
文件上传到hdfs后，读取总说找不到
2016-07-28 07:24

回答 1 已采纳试试这个。 String uri = "hdfs://master:9000/input/picture1.jpg"; Configuration conf = new Conf
【Flink】批处理HDFS文件（带完整源码，直接可使用）
2022-12-01 10:26

一杯咖啡半杯糖的博客本博客基于1.13.6版本Flink，实现批处理提交到yarn执行，并实现读取HDFS上文件实现批处理，有完整的Flink代码，已完成编译，开箱简单修改即可用，避免了大家编程、编译、提交yarn上的一些错误。本工程提供 1、...
flinkSQL创建kafka源表，解析ogg-json失败 flink kafka oracle
2022-08-26 11:43

回答 1 已采纳不是大小写问题，你的json里面是大写，代码里面是小写，改一下试试
flink消费kafka数据延迟 flink postgresql scala 有问必答
2022-01-28 09:47

回答 1 已采纳那最后写入到库了吗，如果写不进去，上游kafka肯定会延迟越来越大的，可以在sink里多打印下错误，或者设置写入超时时间，问题应该在写入
Flink Java 运行WordCount程序报错 flink java 有问必答
2022-04-04 22:57

回答 2 已采纳本地执行需要去掉，依赖范围provided，可以查看我的微博，flink专栏
Flink实战(六）Flink读取Hdfs文件
2019-10-11 21:39

wuhulala的博客接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.11...
flink sql如何做一个超大数据的排序 flink
2021-07-20 16:10

回答 1 已采纳放到kafka缓存或者切成一个个小文件
Java-flink的sum方法输出 flink
2022-06-05 15:31

回答 1 已采纳我的打印出来了，，，我代码是这样的 import org.apache.flink.api.common.RuntimeExecutionMode; import org.apache.flink.
Flink SQL查询报错 flink hive sql
2021-12-03 11:35

回答 2 已采纳找不到方法一般是打包时缺少该jar包，或者jar冲突。jar 冲突时，可以exclude其中一个jar依赖或者重新打包flink-hive-connector 通过 maven 插件重命名guava
flink读取hdfs上多路径的文件
2020-03-05 17:52

zxfBdd的博客 flink上多路径的文件支持似乎不太友好，目前没有找到更好的办法。在spark下可以使用的读取hdfs多路径的方式为： /root/data/20170101/ /root/data/20170102/ /root/data/20170103/ … /root/data/20170201/ /root/...
flink sql job 如何每天定时执行？ flink
2022-04-24 14:53

回答 2 已采纳这样好像不行，你可以换一种思路。写linux脚本，定时提交作业 Linux Crontab 定时任务麻烦采纳一下，你的采纳，是对我最好的鼓励，谢谢！
flink读取服务器文本文件,如何使用flink java api读取目录下的文件名（本地文件系统/ hdfs）...
2021-08-09 14:25

博他一年的博客如何使用flink java api读取目录下的文件名(本地文件系统/ hdfs)根据我们的要求。一)需要通过文件夹作为输入参数，输出参数为CSV文件名二)需要读取从本地文件系统/ HDFS)文件 C写的同一数据为CSV我的代码：public ...
ParquetRowInputFormat Flink 定时获取HDFS上某路径的parquet文件，并作为dim与Kafka中的主表进行关联。
2021-10-28 18:39

青冬的博客 Flink 定时获取HDFS 上某路径的parquet文件，并作为dim进行关联。序ParquetRowInputFormat间隔获取HDFS上的文件使用广播进行关联序在前文提到使用Flink SQL 在1.13.2版本下无法支撑定时获取HDFS上的文件（更新等...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金50元 5月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金20元 5月13日
展开全部

悬赏问题

¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价
¥15 在anaconda上pytorch和paddle paddle下载报错
¥25 自动填写QQ腾讯文档收集表

flink1.15读取hdfs目录文件

7条回答 默认 最新

问题事件

悬赏问题

7条回答默认最新