MachineDora 2019-10-11 23:05 采纳率: 0%
浏览 349

python写sparkstreaming模拟数据流处理得到的wordcount中的word的值都是乱码

最近准备对B站标签做一个流处理,写了以下代码

图片说明

图片说明

上面是从log文件夹里面读数据,log文件夹是一个不断生成日志文件的文件夹,相关代码已经写好,只是上面的代码有问题,我通过打印这个record发现得到的key的值都是乱码,不是我想要的中文,我的数据来自以下这张图图片说明
可是控制台和写入的文件是这样的:图片说明图片说明

我写了好多种编码的方式,我发现好像从计算word的数量那段代码就开始出错了,不知道为什么。

恳请各位大神指教!!!

  • 写回答

1条回答 默认 最新

  • dabocaiqq 2019-10-12 09:21
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 解决一个加好友限制问题 或者有好的方案
  • ¥15 关于#java#的问题,请各位专家解答!
  • ¥15 急matlab编程仿真二阶震荡系统
  • ¥20 TEC-9的数据通路实验
  • ¥15 ue5 .3之前好好的现在只要是激活关卡就会崩溃
  • ¥50 MATLAB实现圆柱体容器内球形颗粒堆积
  • ¥15 python如何将动态的多个子列表,拼接后进行集合的交集
  • ¥20 vitis-ai量化基于pytorch框架下的yolov5模型
  • ¥15 如何实现H5在QQ平台上的二次分享卡片效果?
  • ¥30 求解达问题(有红包)