如何寻找hive的UDF需要继承的类？

写hive的UDF，需要继承一些类，我已经搭建好了hadoop系统，请问该如何找到需要继承的类，包括jar包，比如org.apache.hadoop.hive.ql.exec.UDF，最好来个通用的方法。

图片说明

这是我目前的jar包，貌似不对...
还请大神指点迷津。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2022-09-21 01:59

关注

不知道你这个问题是否已经解决, 如果还没有解决的话:

看下这篇博客，也许你就懂了，链接：Hive 自定义函数之 UDF 的使用

除此之外, 这篇博客: 数仓工具—Hive实战之UDF汉字首字母(22)中的 完整的UDF 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

这个代码我写了很多注释，就不做过多的解释了

import net.sourceforge.pinyin4j.PinyinHelper;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.junit.Test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


@Description(name = "hanyupinyin", value = "_FUNC_(" +
        "String input 汉语(你)\n" +
        ") - return result(n)",
        extended = ""
)
/**
 * 首个字符是汉语则返回拼音首字母
 * 否则返回第一个字符 数字或者字母
 */
public class HanYuPinYinFirstLetterUDF extends UDF {
    private static Map<String, String> pinyinMap = new HashMap<String, String>();

    static {
        initPinyin("/duoyinzi_dic.txt");
    }

    // 空则返回 空字符串
    public String evaluate(String input) {
        if (StringUtils.isBlank(input) || input == null) {
            return "";
        }
        // 不是汉语 则返回第一个字符
        if (!isChinese(input)){
            return input.substring(0, 1);
        }

        // 是汉语 先判断是不是多音字
        if (pinyinMap.get(input) != null) {
            return pinyinMap.get(input).substring(0, 1);
        } else {
            // 不是多音字直接处理
            char aChar = input.toCharArray()[0];
            String result = PinyinHelper.toHanyuPinyinStringArray(aChar)[0];
            return result.substring(0, 1);
        }
    }

    /**
     * 检查输入是否为字符串
     *
     * @param input
     * @return
     */
    public static boolean isChinese(String input) {
        input = input.substring(0, 1);
        Pattern p = Pattern.compile("[\u4e00-\u9fa5]");
        Matcher m = p.matcher(input);
        if (m.find()) {
            return true;
        }
        return false;

    }


    /**
     * 初始化 所有的多音字词组
     *
     * @param fileName
     */

    public static void initPinyin(String fileName) {
        // 读取多音字的全部拼音表;
        InputStream file = PinyinHelper.class.getResourceAsStream(fileName);

        BufferedReader br = new BufferedReader(new InputStreamReader(file));

        String s = null;
        try {
            while ((s = br.readLine()) != null) {

                if (s != null) {
                    String[] arr = s.split("#");
                    String pinyin = arr[0];
                    String chinese = arr[1];

                    if (chinese != null) {
                        String[] strs = chinese.split(" ");
                        for (String str : strs) {
                            pinyinMap.put(str, pinyin);
                        }

                    }
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                br.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

    @Test
    public void testPublicOpinionAnalysisUDF() throws HiveException {
        HanYuPinYinFirstLetterUDF udf = new HanYuPinYinFirstLetterUDF();
        String res;
        res = udf.evaluate("长安");
        System.out.println(res);
        res = udf.evaluate("长大");
        System.out.println(res);
        res = udf.evaluate("你好");
        System.out.println(res);
        res = udf.evaluate("ab");
        System.out.println(res);
    }
}

输出结果

c
z
n
a

我们发现已经准确识别了，只不过这里是小写的，可一加一个format

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

cdh6 hive udf一直报错 hadoop hive java
2021-12-14 16:58

回答 1 已采纳 94行数组越界，本地虚拟机跑没问题，服务器上就有问题了是吧，可以检查下jdk版本，对应的小版本也检查一下，指不定就是哪个的问题，最好换成一样的。
如何优化hive动态分区写入速度？ hadoop hive 大数据
2022-05-21 17:53

回答 1 已采纳查询最后加上distribute by ORDERDATEsort by ORDERDATE distribute by按照指定的字段将数据划分到不同的输出reduce中，可以保证每个reduce处理
spark与hive版本问题? 本机正常运行,服务器上报错. hive java spark
2021-07-30 17:14

回答 1 已采纳可参考：https://blog.csdn.net/zt15732625878/article/details/85245731看客户端的 hive-jdbc的version 和hive Server
hive java udf_hive 的udf 函数使用
2021-03-19 08:34

吉页用的博客一：hive 的udf 函数：1.1 hive UDF 函数概述：1. hive自带了一些函数比如：max/min 等，但是由于自带的函数数量有限，自己可以定义udf来方便扩展。2. udf 函数可以直接应用于select 语句，对查询结构做格式化处理...
关于#hive#的问题，如何解决？ hive
2022-12-16 16:43

回答 2 已采纳你看一下MySQL的版本，如果是8，驱动需要修改一下 <property> <name>javax.jdo.option.ConnectionDriverNam
Hive如何获取一周前分区的数据？ hive sql
2022-06-14 09:52

回答 1 已采纳 select date_sub('2022-06-02',7) select date_sub(concat_ws('-','2022','6','2'),7) select day(date_sub
hive使用Tez引擎失败 hadoop hive java 有问必答
2021-08-17 11:37

回答 2 已采纳关闭所有进程，将配置文件里的所有的中文注释全部删除，记得全部删除，然后保存，完成后从新启动，再次尝试你的操作
hive java udf_hive java编写udf函数
2021-02-12 19:40

weixin_39622891的博客 (一)创建JAVA 代码--例子...import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class splitMax extends UDF {public static int getMax(String[] arr) {int max = Integer....
MySQL在hive使用的过程中的作用是什么？ mysql
2019-03-07 10:29

回答 3 已采纳资源库的角色。hive不也是属于数据仓库嘛，他的数据文件是放在HDFS上，但是他的配置信息是放在资源库上，也就是mysql。比如说表结构等等。相当于'后宫'，我是这么理解的。
hive | o.a.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out flink hive spark
2021-12-15 08:56

回答 2 已采纳 [HIVE-22196] Socket timeouts happen when other drivers set DriverManager.loginTimeout - ASF JIRA程序中使
使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
HIVE UDF JAVA开发
2020-07-31 22:49

hxtog的博客 1. Hive UDF编程继承GenericUDF类实现三个方法(initialize, evaluate, 和getDisplayString) Description注解 2. 需实现的三个方法说明 initialize 方法说明: 用于校验输入参数类型, 指定输出结果类型. 运行: ...
Hive自定义UDF，继承GenericUDF类，如何处理传入的参数类型是否合理
2022-05-09 07:00

牧码文的博客 Hive自定义UDF，继承GenericUDF类内容目录Hive自定义UDF，继承GenericUDF类一、自定义UDF的步骤：二、实现UDF三、总代码四、测试四、总结实现两个int类型计算，返回百分比 itp(1,2) – > return 50% 一、...
Java编写Hive的UDF
2019-02-13 15:03

翁松秀的博客 Java编写Hive的UDF代码很简单，只需要做两件事：第一，继承UDF类。第二，实现evaluate( )方法，UDF实现的功能在evaluate里实现。Hive根据类名来创建UDF，调用的时候根据evaluate参数来调...
hive udf编写及JDBC连接测试
2022-08-10 16:49

韧小钊的博客 hive udf 编写基础UDF和GenericUDF两种方式 JDBC测试UDF函数
没有解决我的问题, 去提问

悬赏问题

¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 自己瞎改改，结果现在又运行不了了

码龄粉丝数原力等级 --

如何寻找hive的UDF需要继承的类？

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何寻找hive的UDF需要继承的类？

1条回答 默认 最新

悬赏问题

1条回答默认最新