怎么写Hive分析数据语句可以教一下吗

问题遇到的现象和发生背景

就是想分析游戏分类（益智类冒险之类）占了多少
或者游戏平台各个数量用hive分析
分析完后怎么导入到数据库

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

辉煌仪奇 2021-11-29 12:08

关注

你之前采集的数据有错误,建议换成excel存储后更完整,通过pandas查询excel中的数据后做分析后再用Hive存储值数据库,目前不清楚你要将数据分析成什么格式.下面是优化后你之前的源代码,你自己看看,整理出一个格式

import pandas as pd
import requests

data = None


def getOnepage(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'Cookie': 'bid=NX8M2NI7rfg; douban-fav-remind=1; __yadk_uid=TEJSv3vlFpxrnShgBGXWW51qExiqLCiD; __gads=ID=35ed214a9a0f04f3-229b40ae8cc5003e:T=1609826897:RT=1609826897:S=ALNI_MbjrOjiMxJC6bra_BWqa1z6LwJvFA; ll="118267"; viewed="1007305"; gr_user_id=38f71f7e-49a3-4463-a3e9-dd3f77625dad; _ga=GA1.2.1355032985.1609826898; _vwo_uuid_v2=D6A8A09C6232AC6A436C3775284DBE348|dadd79d0f01552308d196454329600a7; dbcl2="247324733:YcdnDsCblB0"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.24732; ck=MMTN; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1637395735%2C%22https%3A%2F%2Fwww.gameres.com%2F%22%5D; _pk_ses.100001.8cb4=*; __utma=30149280.1355032985.1609826898.1637309781.1637395736.17; __utmc=30149280; __utmz=30149280.1637395736.17.14.utmcsr=gameres.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; _pk_id.100001.8cb4=b87f2f239f7dd7c8.1609826897.15.1637395743.1637309781.; __utmb=30149280.4.10.1637395736'
    }
    # 发送请求,得到响应
    response = requests.get(url, headers=headers)
    return response.json()  # 文本


# 解析一页的数据
def parseOnepage(res):
    n = len(res['games'])
    list1 = []
    for j in range(n):
        item = {}
        item['name'] = res['games'][j]['title'].replace('\r\n', '')
        item['star'] = res['games'][j]['star'].replace('\r\n', '')
        item['rating'] = res['games'][j]['rating'].replace('\r\n', '')
        item['platforms'] = res['games'][j]['platforms'].replace('\r\n', '')
        item['n_ratings'] = str(res['games'][j]['n_ratings'])
        item['genres'] = res['games'][j]['genres'].replace('\r\n', '')
        item['content'] = res['games'][j]['review']['content'].replace('\r\n', '')
        list1.append(item)
    return list1


def savaData(item):
    print(item)
    df = pd.read_excel('douban.xlsx')
    for i in item:
        row_index = len(df) + 1  # 当前excel内容有几行
        df.loc[row_index] = i.values()
    df.to_excel('douban.xlsx', index=False)
def main():
    global data
    col = ['name', 'star', 'rating', 'platforms', 'n_ratings', 'genres', 'content']
    data = pd.DataFrame(columns=col)
    data.to_excel('douban.xlsx', index=False)
    for i in range(1, 100):
        url = "https://www.douban.com/j/ilmen/game/search?genres=&platforms=&q=&sort=rating&more=" + str(i)
        response = getOnepage(url)
        # parseOnepage(response)
        savaData(parseOnepage(response))


if __name__ == '__main__':  # 程序的窗口
    main()

数据过滤评分为0

import pandas as pd
import requests

data = None


def getOnepage(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'Cookie': 'bid=NX8M2NI7rfg; douban-fav-remind=1; __yadk_uid=TEJSv3vlFpxrnShgBGXWW51qExiqLCiD; __gads=ID=35ed214a9a0f04f3-229b40ae8cc5003e:T=1609826897:RT=1609826897:S=ALNI_MbjrOjiMxJC6bra_BWqa1z6LwJvFA; ll="118267"; viewed="1007305"; gr_user_id=38f71f7e-49a3-4463-a3e9-dd3f77625dad; _ga=GA1.2.1355032985.1609826898; _vwo_uuid_v2=D6A8A09C6232AC6A436C3775284DBE348|dadd79d0f01552308d196454329600a7; dbcl2="247324733:YcdnDsCblB0"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.24732; ck=MMTN; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1637395735%2C%22https%3A%2F%2Fwww.gameres.com%2F%22%5D; _pk_ses.100001.8cb4=*; __utma=30149280.1355032985.1609826898.1637309781.1637395736.17; __utmc=30149280; __utmz=30149280.1637395736.17.14.utmcsr=gameres.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; _pk_id.100001.8cb4=b87f2f239f7dd7c8.1609826897.15.1637395743.1637309781.; __utmb=30149280.4.10.1637395736'
    }
    # 发送请求,得到响应
    response = requests.get(url, headers=headers)
    return response.json()  # 文本


# 解析一页的数据
def parseOnepage(res):
    n = len(res['games'])
    list1 = []
    for j in range(n):
        item = {}
        item['name'] = res['games'][j]['title'].replace('\r\n', '')
        item['star'] = res['games'][j]['star'].replace('\r\n', '')
        item['rating'] = res['games'][j]['rating'].replace('\r\n', '')
        item['platforms'] = res['games'][j]['platforms'].replace('\r\n', '')
        item['n_ratings'] = str(res['games'][j]['n_ratings'])
        item['genres'] = res['games'][j]['genres'].replace('\r\n', '')
        item['content'] = res['games'][j]['review']['content'].replace('\r\n', '')
        if item['rating']=='0':
            continue
        list1.append(item)
    return list1


def savaData(item):
    print(item)
    df = pd.read_excel('douban.xlsx')
    for i in item:
        row_index = len(df) + 1  # 当前excel内容有几行
        df.loc[row_index] = i.values()
    df.to_excel('douban.xlsx', index=False)


def main():
    global data
    col = ['name', 'star', 'rating', 'platforms', 'n_ratings', 'genres', 'content']
    data = pd.DataFrame(columns=col)
    data.to_excel('douban.xlsx', index=False)
    for i in range(1, 100):
        url = "https://www.douban.com/j/ilmen/game/search?genres=&platforms=&q=&sort=rating&more=" + str(i)
        response = getOnepage(url)
        # parseOnepage(response)
        savaData(parseOnepage(response))


if __name__ == '__main__':  # 程序的窗口
    main()

编辑记录

报告相同问题？

关注问题

mysql数据抽取，自动生成hive建表语句
2022-03-11 18:21

mysql数据抽取，自动生成hive建表语句，只需要输入表名即可
Hadoop大数据综合案例4-Hive数据分析
2021-05-17 20:09

CDHong.it的博客 大数据价值链中最重要的一个环节就是数据分析,其目标是提取数据中隐藏的数据,提供有意义的建议以辅助制定正确的决策。通过数据分析,人们可以从杂乱无章的数据中萃取和提炼有价值的信息,进而找出研究对象的内在规律。...
数据科学与大数据技术hive安装包
2023-04-16 11:18

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一...
【数据分析实例】1 亿条淘宝用户行为Hive数据分析
2021-03-01 21:40

RunsenLIu的博客【数据分析实例】1 亿条淘宝用户行为Hive数据分析
【数据开发】大数据平台架构，Hive / THive介绍
2023-11-05 14:33

小哈里的博客什么是Hive？Hive是一个基于Hadoop的数据仓库工具。它提供了一个类似于SQL的...Hive引擎是一个基于Hadoop的数据仓库工具，它提供了一个类似于SQL的查询语言，称为HiveQL，用于查询和分析大规模数据集。什么是THive？
大数据开发Spar、Hive入门
2024-04-26 14:31

详细描述了使用Hive进行数据分析的基本步骤，包括创建Hive表、加载数据、编写和执行查询语句，以及查看和分析查询结果。它提供了具体的SQL示例，如创建用户表、加载CSV文件数据、执行各种查询操作（如筛选、统计、...
【大数据】Hive入门➕安装（尚硅谷大数据Hive 3.1.3教程）
2023-08-27 23:26

欧叶冲冲冲的博客具体来说，beeline允许用户通过命令行界面连接到Hive服务器，并在该界面下执行Hive SQL语句、查看查询结果、管理数据库和表等。连接到Hive服务器：通过指定连接URL、用户名、密码等信息，可以建立与Hive服务器的连接...
学习数据仓库Hive
2021-01-07 12:18

数据分析引擎：hive 大数据的终极目标：使用SQL语句来处理大数据 1，hadoop的体系架构中: 两个数据分析引擎:(*)Hive:支持sql （*）Pig:支持PigLatin 一，什么是hive? 1，hive是一个基于hdfs之上的数据仓库 ...
大数据之Hive
2021-06-09 22:18

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句实现简单的...
使用hive进行大数据项目分析
2022-11-24 20:06

墨染盛夏呀的博客 19级数据科学与大数据技术全年级学生的期末综合成绩80分以上的学生人数（含80分）。查询2019级1班ETL技术期末考试的综合分数80分以上的学生信息（含80分）。分析出2019级全年级ETL技术的期末考试成绩分布在70-85分...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

怎么写Hive分析数据语句 可以教一下吗