hadoop中map处理多行数据，可以满足用于算法模型的输入。

在分布式平台做算法研究，遇到一个map处理文件是以行为单位。怎么使map可以
读取多行数据然后可以在map中进行算法模型的训练。

以下是我的尝试：
1：NLineInputFormat 不行，还是单行输出数据。
2：重写 InputFormat函数。数据集没有具体的切分标志，只能说一个map处理
100或200行数据。没有类似 {} “ ” —— 的切分标志。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-04-03 14:31
关注
你重写函数后也总要有一个规则来定义你的map处理方法

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
hadoop进行数据分析缺少数据的输出 hadoop 大数据
2022-07-09 16:18

回答 1 已采纳问题解决了，不好提供数据源，是201.42的虚拟机实验Mapperpackage com.mystudy.hadoopPro; import java.io.IOException;import ja
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
数据中台建设方案-基于大数据平台
2023-03-14 16:45

FRDATA1550333的博客通过对客户大数据应用平台服务需求的理解，根据建设目标、设计原则的多方面考虑，建议采用星环... 通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维平台来满足客户大数据应用平台服务建设的要求。
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
Hadoop 基于物品的协同过滤算法从结果中去除用户已经评论过的数据 hadoop 推荐算法
2018-04-29 14:27

回答 2 已采纳你的reduce一次其实就是一个itemId，但是对应这个itemId，你输出非常多。因为你是基于 mapA的每一行，看mapB和对应mapA的KEY不一致就输出一行。这个逻辑上就没合理的意义了
Hadoop无法访问网页yarn hadoop103-8088 hadoop 大数据数据仓库有问必答
2023-04-16 20:08

回答 2 已采纳可能是由于Hadoop103节点没有启动 yarn没有启动成功
大数据概述：Hadoop生态系统与Spark生态系统
2024-04-28 00:59

AI天才研究院的博客 1. 背景介绍随着信息技术和互联网的快速发展，全球数据量呈...大数据技术是指用于处理海量、高速、多样化数据的技术集合，其核心目标是从大规模数据中挖掘有价值的信息，为企业决策和科学研究提供支持。 Hadoop和Sp
Hadoop输入jps后除主节点其他子节点都只显示jps hadoop 大数据
2022-09-17 13:55

回答 1 已采纳另外两台应该没有启动相关的进程，你是怎么启动Hadoop集群的呢？有把02、03添加到slave里面吗？
hadoop中，reduce运行到33%卡不住不动 hadoop 大数据有问必答
2021-11-09 17:48

回答 1 已采纳有可能datanode有多处磁盘损坏了，你可以尝试关闭其中那个有问题的节点继续测试
大数据hadoop完全分布式安装配置怎么做 hadoop
2023-03-02 16:06

回答 3 已采纳小魔女参考了bing和GPT部分内容调写:要安装配置Hadoop的完全分布式，首先需要准备好master节点和slave节点，其中master节点需要安装jdk，slave节点只需要安装ssh服务，并
轻量级大数据计算引擎esProc SPL,Hadoop Spark太重
2022-08-16 08:00

当年的春天的博客很多场景的数据虽然也不少，但小集群甚至无集群就足够处理，远没多到这些巨大企业的规模，也没有那么多的硬件设备和维护人员。这种情况下，轻量级的大数据计算引擎SPL是首选，投入很低的成本，就可以做到技术轻、...
数仓开发中的要数据模型要如何优化 hadoop hive spark
2023-01-30 20:54

回答 1 已采纳数据模型是指数据的结构和组织方式优化数据模型意味着改进数据仓库的结构，使其更容易维护，更易于执行查询和分析。
大数据分析-第三章 大数据存储和处理
2022-02-19 10:44

SpriCoder的博客第三章 大数据存储和处理
2024大数据面试题汇总(完善中。。。)
2024-06-18 16:10

hitits的博客自己汇总的面试题，涉及到大数据的常用组件，将持续更新... ... 部分图片不全，后期继续完善更新记录: 2024-6-18 初版0.1.0 :hadoop，hbase，doris，hive，mysql，es 2024-6-26 1.0.0 : java，spark，redis，kafka...
没有解决我的问题, 去提问

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

hadoop中map处理多行数据，可以满足用于算法模型的输入。

1条回答 默认 最新

悬赏问题

1条回答默认最新