关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
阿黄Ahuang
2022-01-14 09:55
采纳率: 50%
浏览 12
首页
Java
已结题
大数据怎么保证采集器到Spark中数据一致性
java
大数据
如图从采集器到Yarn通过kafka进行数据传输,需要进行数据的预处理验证,确保源数据和推送到Hadoop中的数据一致
所以需要验证采集器到Yarn的数据是一致的(应该是吧)
那应该怎么验证呢?
我看到有说可以用md5sum校验数据文件,但是从采集器经过Kafka传输到Spark这个过程是传数据呀,没有传文件呀
收起
写回答
好问题
0
提建议
追加酬金
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
收藏
举报
追加酬金
(90%的用户在追加酬金后获得了解决方案)
当前问题酬金
¥
0
(可追加 ¥500)
支付方式
扫码支付
加载中...
支付金额
15
元
提供问题酬金的用户不参与问题酬金结算和分配
支付即为同意
《付费问题酬金结算规则》
0
条回答
默认
最新
查看更多回答(-1条)
向“C知道”追问
报告相同问题?
提交
关注问题
java
淘宝新开店铺
数据
采集
java
2018-04-24 16:06
回答 8
已采纳
采用Python爬虫爬取淘宝的店铺信息,再去判断是否有商品。最后得出了需要的信息。(分布式爬虫、记得设置代理)
Java
如何实现5个模块里采集的
数据
,合并到一个模块里合并导出功能
java
maven
有问必答
2022-03-29 11:54
回答 2
已采纳
导出
数据
应该是后台实现的功能,完全可以在一个模块导出的。使用poi技术,前端传传输给后台判断需要导出什么
数据
就可以了。
我想把采集到的
数据
保存到pdf
中
该怎么做
python
2023-03-12 16:10
回答 2
已采纳
安装PyPDF2库,可以在终端
中
使用以下命令: pip install pypdf2 在代码
中
添加以下内容,将每条
数据
保存为一个PDF文件: # 创建PDF文件对象 pdf = PyPDF2.P
大数据
技术之
Spark
(一)——
Spark
概述
2023-03-29 20:12
five小点心的博客
Apache
Spark
是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿
数据
存储在内存
中
的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。
JAVA
WEB项目如何获取API接口
中
的
数据
java
数据库
2017-12-25 05:28
回答 9
已采纳
首先给你一个后台发送请求的: [httpUtils](https://github.com/huhuhuHR/springboot/blob/master/src/main/
java
/com/huo
kafka拉取不到
数据
java
kafka
分布式
有问必答
2022-02-16 19:32
回答 4
已采纳
重新开一个topic,然后先启动consumer,再启动producer,再发消息,你这个可能是consumer已经在broker里有了自己的offset,就会读不到之前producer发送到brok
使用datax同步oracle到hive的
数据
错乱问题
hive
java
oracle
有问必答
2021-12-19 11:35
回答 2
已采纳
查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
Spark
大数据
技术与应用
2021-04-24 18:18
HackerLZH的博客
Spark
是一个大规模
数据
处理的统一分析引擎。 特点 迅速、通用、易用、支持多种资源管理器 迅速
Spark
用十分之一的计算资源,获得了比Hadoop快3倍的速度。 通用 可以用
Spark
进行sql查询、流式计算、机器学习、图计算...
打印激光相机采集到的
数据
c++
visualstudio
有问必答
2021-08-24 18:22
回答 1
已采纳
你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答本次提问扣除的有问必答次数,将会以问答VIP体验卡(1次有问必答机会、商城购买实体图书享受95折优惠)的形式为
JAVA
网页
数据
爬取,保存为xml
java
xml
2015-11-20 07:39
回答 2
已采纳
你可以了解一下JSOUP,用这个进行网页抓取和
数据
提取比较简单的,能提取各种元素和对应的
数据
。 你百度一下,内容很多的。发个小例子: ``` /** * 抓取url网址页面链
如何根据项目
数据
采集
java
python
有问必答
2021-06-07 16:05
回答 3
已采纳
首先要针对拟请求的页面
数据
加载方式进行分析,requests一般用于静态页面,selenium用于动态页面,根据情况选择不同的库; 其次也是重点,就是实现
数据
采集的功能模块,实现
数据
收集,解析,整理
第四课
大数据
技术之
Spark
-RDD行动算子和累加器
2022-10-17 01:23
道教儒佛电磁波的博客
RDD行动算子和累加器
有懂迷你派
采集器
使用的朋友?
python
2022-07-19 10:34
回答 2
已采纳
此位同学,可以先给我们以下资料,要不然大家不知道怎么帮你。1、你用的迷你派是什么类型、品牌?配置?操作系统?基本条件?2、你要收集什么资料?硬件传过来的
数据
?还是别的设备传过来的
数据
?3、资料的格式?
大数据
项目 ---
数据
采集项目
2022-11-07 15:41
ASDWYang的博客
大数据
第一个项目笔记整理
大数据
架构:
数据
采集-处理-分析-工具介绍hadoop
2022-11-30 11:26
西山创罪梦不觉的博客
大数据
分析Hadoop
没有解决我的问题,
去提问
向专家提问
向AI提问
◇ 用户帮助中心
◇《冲榜分奖金》活动下线公告 及AIGC类回答处理措施
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
系统已结题
1月22日
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
1月14日
悬赏问题
¥15
echarts动画效果失效的问题。官网下载的例子。
¥60
许可证msc licensing软件报错显示已有相同版本软件,但是下一步显示无法读取日志目录。
¥15
Attention is all you need 的代码运行
¥15
一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
¥15
使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
¥15
前置放大电路与功率放大电路相连放大倍数出现问题
¥30
关于<main>标签页面跳转的问题
¥80
部署运行web自动化项目
¥15
腾讯云如何建立同一个项目中物模型之间的联系
¥30
VMware 云桌面水印如何添加