关于#mapreduce#的问题，如何解决？

mapreduce+mysql+python分析豆瓣读书top250，还要画图，想问下python的逻辑代码怎么写，就比如，找出当前评价人数最多的前100的小说，并以国籍为指标绘制饼状图，逻辑代码类似于这样要连接数据库，还有个run.py的启动文件

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

IT论之程序员 2023-06-11 09:35

关注


这里是一个简单的思路:
1. 连接MySQL数据库,查询出豆瓣读书top250的数据,包括书名、评分、评价人数、国籍等信息。
2. 在Map阶段,将每本书的信息映射为((国籍, 书名), 评价人数)这样的键值对。
3. 在Reduce阶段,对相同国籍的书进行评价人数的累加,得到((国籍, 总评价人数), [书名1, 书名2, ...])这样的结果。
4. 对Reduce结果再进行排序,选出评价人数最多的前100本书。
5. 根据国籍信息绘制饼图。
python代码如下:
python
import mysql.connector
from mrjob.job import MRJob

class BookTop250(MRJob):
    def mapper(self, _, line):
        line = line.strip().split('\t')
        name, rating, votes, nationality = line[0], line[1], int(line[3]), line[6]
        yield (nationality, name), votes

    def reducer(self, key, values):
        total_votes = sum(values)
        book_names = [v for v in values]
        yield key, (total_votes, book_names)

if __name__ == '__main__':
    # 连接MySQL,查询top250数据
    conn = mysql.connector.connect(host='localhost', user='root', password='password', database='douban')
    cursor = conn.cursor()
    cursor.execute('SELECT * FROM book_top250')
    rows = cursor.fetchall()

    # 写入本地数据文件
    with open('top250.txt', 'w') as f:
        for row in rows:
            f.write('\t'.join(row) + '\n')
    
    # 运行MapReduce作业           
    mr_job = BookTop250(args=['top250.txt'])
    with mr_job.make_runner() as runner:
        runner.run()
        for key, value in mr_job.parse_output(runner.cat_output()):  
            # 这里对结果进行处理和绘制饼图
这是一个简单的思路,希望对您有所帮助。如果有任何问题,欢迎交流。

报告相同问题？

关注问题

关于#大数据#的问题，如何解决？ hive java 大数据
2023-02-21 09:58

回答 2 已采纳你去看一下这个job的日志报的什么错误
关于#sparksql#的问题，如何解决？ spark
2022-11-28 17:45

回答 1 已采纳 A，仅供参考，用了排除法
idea里面运行mapreduce报这个错误，如何解决？ java mapreduce
2023-01-24 08:24

回答 1 已采纳望采纳！！新年快乐！！数据表中设置了主键(Primary Key)，而主键对应的值是不允许重复的。错误提示为：你插入的记录与数据表中原有记录的主键重复了(Duplicate)。所以插入失败。
大数据实验四-MapReduce编程实践
2024-04-03 11:45

### 大数据实验四-MapReduce...5. **编程能力提升**：通过不断调试和优化代码，提高了编程技能和解决问题的能力。总之，本次实验不仅是一次技术上的尝试，更是对未来大数据处理技术和分布式计算领域的一次深入探索。
在mapreduce编程实践中 name node处于安全模式 hadoop mapreduce
2022-11-01 09:17

回答 2 已采纳你试试hadoop dfsadmin -safemode leave或者你cd到hadoop/bin目录下，再执行命令
Hadoop mapreduce传值问题 hadoop mapreduce 推荐算法
2018-04-25 00:52

回答 1 已采纳 step4输出的是 UserId\tItemId,Score，也就是Step5的Map的step4数据KEY是UserId，map的step2的数据KEY是itemID，肯定没办法走到同一个循环。
如何用python进行mapreduce编写统计单词所在行？ python
2021-04-06 18:40

回答 2 已采纳 from mrjob.job import MRJob class FrequencyCount(MRJob): def mapper(self, _, line): words = line
大数据技术原理及应用课实验5 :MapReduce初级编程实践
2024-01-16 18:48

在这个实验中，我们将学习如何利用MapReduce编程解决实际问题，包括数据去重、数据排序和信息挖掘。 **一、MapReduce编程基础** MapReduce的核心在于两个主要阶段：Map阶段和Reduce阶段。Map阶段将输入数据分解成...
MapReduce分析气象数据 java linux mapreduce
2022-06-19 22:26

回答 3 已采纳是只能使用mapreduce写吗，你把他整成sql，操作不是简单多了吗
mapreduce新手求助问题，麻烦了 mapreduce
2017-05-24 09:27

回答 1 已采纳 1、map和reduce是分开的。比如每个学生所有科目的平均值，使用学生id为key，学生的分数作为value。在shuffle的过程中，相关学生id的value将合并在一起。返回给reduce。
初学mapreduce,请教问题 hadoop mapreduce
2017-05-21 13:58

回答 1 已采纳 http://blog.csdn.net/lzm1340458776/article/details/43227759
Hadoop MapReduce 是如何工作的?
2023-08-01 01:55

AI天才研究院的博客 Hadoop MapReduce（以下简称MR）是一个分布式计算框架，基于Google开发，用于并行处理海量数据集。其提供简单、高效的数据处理能力，并可运行于多种平台上，广泛应用于数据分析领域。因此，掌握MR的原理及其工作方式...
MapReduce Unable to initialize MapOutputCollector hadoop java mapreduce 有问必答
2022-04-22 14:34

回答 2 已采纳 public class StudentScore implements Serializable, WritableComparable<StudentScore> 类要实现Seria
Java编程语言在大数据开发中的应用探究.pdf
2023-03-31 11:45

Java编程语言在大数据开发中的应用探究随着信息技术的飞速发展，大数据已成为现代企业和机构的重要资产。Java编程语言，作为一种广泛应用于互联网领域的编程系统，因其强大的功能和灵活性，逐渐成为了大数据开发的...
分布式编程环境MapReduce介绍.pdf
2021-10-14 03:26

分布式编程环境MapReduce介绍 MapReduce是一个分布式编程环境，主要用于处理大规模数据的处理。它是Hadoop架构的一部分，提供了一个简洁的编程接口，允许用户编写分布式程序来处理大量数据。MapReduce的核心是Map和...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月10日

悬赏问题

¥15 c++ gmssl sm2验签demo
¥15 关于模的完全剩余系(关键词-数学方法)
¥15 有没有人懂这个博图程序怎么写，还要跟SFB连接，真的不会，求帮助
¥30 模拟电路 logisim
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？

关于#mapreduce#的问题，如何解决？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新