qq_15093605 2017-05-17 02:10
浏览 1099

Randomness disabled via PYTHONHASHSEED

求助
我的环境是spark2.1+hdp2.6 采用spark on yarn模式,在用pyspark时,使用了python3.5
结果在执行类似distinct 语句
user_data = sc.textFile("/testdata/u.user")
user_fields = user_data.map(lambda line: line.split("|"))
num_genders = user_fields.map(lambda fields: fields[2]).distinct().count()

报异常,如下
File "/data/opt/hadoop-2.6.0/tmp/nm-local-dir/usercache/jsdxadm/appcache/application_1494985561557_0001/container_1494985561557_0001_01_000002/pyspark.zip/pyspark/rdd.py", line 72, in portable_hash
raise Exception("Randomness of hash of string should be disabled via PYTHONHASHSEED")
Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED
根据源码好像由于安全漏洞,增加了对python3控制
if sys.version >= '3.3' and 'PYTHONHASHSEED' not in os.environ:
raise Exception("Randomness of hash of string should be disabled via PYTHONHASHSEED")

我按网上方式,采用两种方法,都不行,哪位碰到,能告诉一下如何解决的吗
1、echo "export PYTHONHASHSEED=0" >> /root/.bashrc
2、spark.yarn.appMasterEnv.PYTHONHASHSEED="XXXX"

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 用三极管设计—个共射极放大电路
    • ¥15 请完成下列相关问题!
    • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
    • ¥15 求daily translation(DT)偏差订正方法的代码
    • ¥15 js调用html页面需要隐藏某个按钮
    • ¥15 ads仿真结果在圆图上是怎么读数的
    • ¥20 Cotex M3的调试和程序执行方式是什么样的?
    • ¥20 java项目连接sqlserver时报ssl相关错误
    • ¥15 一道python难题3
    • ¥15 牛顿斯科特系数表表示