如何使用spark mlib进行疾病概率的预测？

毕设选题：基于spark的心血管疾病预测
疑问：疾病预测是一个二分类问题，只有患病和不患病两种可能我应该选择哪种模型才能够得到患者患病的概率啊？要的是概率不是是否患病谢谢额

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bj_0163_bj 2022-02-09 06:11
关注
二分类本来输出的就是概率，只不过平时习惯性得到0 和 1 是概率划分过界限后得到的结果。很多模型也都是给出了两个预测接口 predict, predict_proba

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

Spark大数据-Spark MLib机器学习流水线Pipeline
2019-12-31 01:14

chenbengang的博客 Spark MLib机器学习流水线Pipeline DataFrame作为基本的数据抽象。 Transform：转化器，传入DataFrame转换成新的DataFrame。 Estimator：评估器，fit训练得到模型。 Pipeline：流水线，多步骤组合。构建Pipeline： ...
大数据：Spark mlib(二) Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析
2017-06-23 06:36

raintungli的博客朴素贝叶斯概率模型概率模型分类器是一个条件概率模型：（独立的类别特征C有若干类别，条件依赖于若干特征变量F1,F2,...,Fn）贝叶斯定理：我们可以看到分母并不依赖于C，而且特征Fn的概率是给定的，分母...
机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。
2023-10-09 17:07

AI天才研究院的博客机器学习（Machine Learning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习...
深入探索Spark MLlib：大数据时代的机器学习利器
2024-06-07 03:25

concisedistinct的博客随着大数据技术的迅猛发展，机器学习在各行各业的应用日益广泛。Apache Spark作为大数据处理的利器，其内置的机器学习库MLlib（Machine Learning Library）提供了一套高效、易用的工具，用于处理和分析海量数据。...
Spark and MLib: Building and Tuning Machine Learning Models with Spark
2023-12-28 17:25

AI天才研究院的博客 Spark和MLib：构建和调整Spark机器学习模型随着数据规模的不断增长，传统的数据处理技术已经无法满足现实中的需求。为了解决这个问题，Apache Spark项目诞生，它是一个开源的大规模数据处理框架，可以处理批量和...
Spark MLlib 特征工程系列—相关性计算
2024-08-15 07:51

不二人生的博客 Spark MLlib 特征工程系列—相关性计算计算两个数据序列之间的相关性是统计学中的一项常见操作。在spark.ml中，提供了计算许多成对序列之间相关性的操作，目前支持的相关方法是Pearson和Spearman。 Correlation ...
离线轻量级大数据平台Spark之MLib机器学习库概念学习
2016-10-28 09:47

fjssharpsword的博客机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。机器学习问题分类为几种，包括分类、回归、聚类。所有的机器学习算法都经过一条流水线：提取训练数据的特征->基于特征...
Spark-机器学习（1）什么是机器学习与MLlib算法库的认识
2024-04-14 14:15

Peng0426.的博客从这一系列开始，我会带着大家一起了解我们的机器学习，了解我们spark机器学习中的MLIib算法库，知道它大概的模型，熟悉并认识它。同时，本篇文章为个人spark免费专栏的系列文章，有兴趣的可以收藏关注一下，谢谢。...
大数据12_Spark MLlib介绍
2018-04-12 04:15

小飞猪666的博客已有的数据(经验)，训练某种模型，利用此模型预测未来。1998年Tom Mitchell对机器学习给出了一个更加正式的定义：A computer program is said to learn from experience E with respect to some task T and some ...
数据挖掘：SparkMLlib的预测模型
2024-01-20 19:43

AI天才研究院的博客在大数据时代，数据挖掘技术已经成为企业和组织中不可或缺的一部分。随着数据的规模和复杂性的增加，传统的数据挖掘算法已经无法满足需求。因此，Spark MLlib 作为一个高性能、易用的机器学习库，成为了数据挖掘领域...
Spark MLlib简介
2021-09-04 14:55

MusicDancing的博客 1. Spark 机器学习库MLlib 从1.2 版本后被分为两个包 1. spark.mllib 历史较长，包含了基于RDD的原始算法API。 2. spark.ml 提供了基于DataFrames高层次的API，可以用来构建ML Pipeline，弥补了MLlib库的不足，...
大数据应用技术（Spark）中级
2021-06-04 12:24

惜于情的博客 大数据应用技术（Spark）中级考前辅导一、Spark MLib 1、常见的机器学习流程 2、机器学习的分类 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2tNxeVy7-...
Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐
2021-06-26 08:29

John Zhuang的博客 Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐基于Spark MLlib 实现音乐推荐一、实验背景：熟悉 Audioscrobbler 数据集基于该数据集选择合适的 MLlib 库算法进行数据处理进行音乐推荐（或用户推荐） ...
【大数据面试题】（八）Spark 相关面试题
2020-02-29 08:59

云祁的博客 1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合 Dataset：就是一个集合，...
头歌：Spark案例剖析 - 谷歌网页排名引擎PageRank实战
2024-04-29 16:20

空心木偶☜的博客下面我们重点介绍Spark SQL的初始化，数据库的使用，外部数据的导入，从而将网页数据导入数据库中方便之后处理。Spark SQL是Spark自带的数据库，本关你将应用Spark SQL的数据导入工具实现文本数据的导入。总的来说，...
【Scala-spark.mlib】本地矩阵乘法计算效率比较（稠密稀疏哪家强？）
2020-04-08 11:18

JimmyShis的博客 spark作为分布式计算的框架，在解决大规模计算时有得天独厚的优势，而作为spark中主流的科学计算库mlib，其中的矩阵运算是我们经常会使用到的。之前的博文详细介绍了本地存储的两种矩阵形式——稠密矩阵DenseMatrix...
Spark MLlib 机器学习
2021-03-03 08:50

lodew920的博客 MLlib已经集成了大量机器学习的算法,本章更侧重于机器学习API的使用，基本能够满足大多数读者的需要。机器学习概率机器学习也属于人工智能的范畴，该领域主要研究的对象是人工智能，尤其是如何在经验学习中改善...
【Spark ML系列】 xgboost原理源码分析
2023-09-14 15:13

BigDataMLApplication的博客 map(Row(_)).iterator } // 使用广播变量的Booster进行预测，返回概率的迭代器 val probabilityItr = { broadcastBooster.value.predict(dm, outPutMargin = false, $(treeLimit)). map(Row(_)).iterator } // 如果...
Spark MLlib机器学习库原理与代码实例讲解
2024-05-31 06:23

AI天才研究院的博客 1.背景介绍 Spark是一个开源的大数据处理框架，它提供了内存计算能力，能够快速地处理...随着数据科学和人工智能领域的快速发展，Spark MLlib已经成为数据科学家、开发者和研究人员进行数据分析和挖掘的重要工具之一。
离线轻量级大数据平台Spark之MLib机器学习库朴素贝叶斯实例
2016-11-03 07:13

fjssharpsword的博客表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率，公式为：贝叶斯定理：从已知P(A|B)获得P(B|A)值。假设A和B代表两类互相影响的事件，如B代表正常邮件和骚扰邮件事件、A...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月9日

如何使用spark mlib进行疾病概率的预测？

1条回答 默认 最新

问题事件

1条回答默认最新