海量数据下机器学习的几个问题

1、建模的耗时问题？
2、如何降低重复建模？
3、基于hadoop等并行计算平台下的机器学习算法该注意什么？
ps：您的个人github地址方便发出来吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wa2003 2017-03-29 12:04
关注
1、耗时问题，是指模型算起来很慢是吗？这个没办法，要不怎么有并行计算和集群呢，数据量大，算起来比如慢，还好有集群和多核甚至GPU，空间换时间；
2、重复建模，大公司的项目组，一般会将一些常用的算法封装，这样相同的问题就可以服用，尤其是一些耗时的工作，如数据预处理。
3、注意就是可能坑多，开源的东西，踩坑是必然的。
github地址，书里面有。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
机器学习有关特征处理的问题 python 有问必答机器学习
2023-01-04 20:38

回答 3 已采纳当数据特征的量级差别很大的时候，通常会使用归一化来解决这个问题。归一化的方法有很多，比如将数值缩放到固定范围内，比如 [-1, 1]；或者将数值缩放到 [0, 1] 区间内。这种方法可以让所有的特征在
机器学习与数据挖掘
2021-06-06 09:35

Weiyaner的博客数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。 机器学习的涉及面更宽，常用在数据挖掘上的方法通常只是“从数据学习”，...
机器学习python问题 python 机器学习神经网络
2022-09-24 21:21

回答 1 已采纳如果你的数据集够多，可以用网络训练。但听你的描述，感觉大概是非线性规划，就是有目标方程和多种目标条件限制，比如说求利润最大，里面要考虑运输成本，人的行为博弈，还有人数安排。我推荐你可以先看看一些启发式
python机器学习书中案例出现ValueError问题 python 数据分析机器学习
2021-10-14 00:30

回答 1 已采纳跟你训练集有关吧，检查下X-train
几种常见机器学习算法分类 python 机器学习算法
2022-05-23 09:05

回答 5 已采纳 GBDT和XGBoost都是决策树分类的，机器学习分类算法应该按照下面的链接来分类，总共有7种，而且你说的神经网络算深度学习了 机器学习中的七种分类算法_坠星不坠的博客-
机器学习第一章之大数据分析与机器学习简介
2022-08-13 21:11

王宇韬的博客 机器学习专题系列
机器学习数据缺失值处理 python 机器学习
2022-04-13 21:24

回答 1 已采纳 import pandas as pd import numpy as np data = pd.DataFrame({ 'a': [np.nan, 1, np.nan, 2, 3, np.
自动机器学习问题解决 python 机器学习
2023-01-15 09:39

回答 5 已采纳直接在你的虚拟环境运行脚本，你那个报错是pycharm没有识别虚拟环境下的安装包而已
机器学习多标签数据处理 python r语言有问必答机器学习
2022-07-10 21:04

回答 2 已采纳可以查阅one-hot编码
数据挖掘、机器学习、深度学习的区别
2022-11-04 17:41

九章云极DataCanvas的博客详细解析数据挖掘、机器学习、深度学习的概念和区别
机器学习，训练时数据集分段了 python 机器学习神经网络
2021-04-28 11:04

回答 1 已采纳你为什么不一次性把数据读进去，随机选取样本进行训练，设置每个batch128或者多少个数据输入，进行训练，这样得到的曲线就是一个有上下波动的曲线，而不是个折线
数据挖掘与机器学习
2019-07-21 09:06

Winyar Wen的博客数据挖掘：也就是data mining，是一个很宽泛的概念，也是一个新兴学科，旨在如何从海量数据中挖掘出有用的信息来。数据挖掘这个工作BI（商业智能）可以做，统计分析可以做，大数据技术可以做，市场运营也可以做...
【物联网】30.物联网数据分析的基础 - 机器学习
2021-11-17 21:22

CodeAllen嵌入式的博客 机器学习领域汇集了众多技术，这些技术用于让计算机基于大量数据来学习数据的倾向并作出某些判断。机器学习的算法可以根据输入的数据类型分为“监督学习”和“非监督学习”两种。监督学习和非监督学习当用机器...
没有解决我的问题, 去提问

悬赏问题

¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集

海量数据下机器学习的几个问题

1条回答 默认 最新

悬赏问题

1条回答默认最新