test，百度，spark，测试不用回答


$.get("/a1").done(function (data) {
        myChart1.setOption({
            xAxis: {
                type: 'category',
                data: data.year
            },
            yAxis: {
                type: 'value'
            },
            series: [
                {
                    data: data.num,
                    type: 'line'
                }
            ]
        })

    })
```python
@app.route("/a1")
def a1():
    conn = pymysql.connect(
        host="localhost",
        user="root",
        password="baidu123",
        database="test"

    )
    cursor = conn.cursor()
    cursor.execute("select * from exam1")
    data = cursor.fetchall()
    exam_map = {"year": [],"num":[]}
    for row in data:
        exam_map.get("year").append(row[0])
        exam_map.get("num").append(row[1])
    return jsonify(exam_map)
```java
try {
                String[] line = value.toString().split(",");
                context.write(new Text(line[0]), new LongWritable(Long.parseLong(line[8])));
            } catch (Exception e) {
                return;
            }

long sum = 0, count = 0,max=0,min=400;
            for (LongWritable value : values) {
                sum += value.get();
                count++;
                max=Math.max(max,value.get());
                if(min>value.get()) {
                    min=Math.min(min,value.get());
                }
            }
            context.write(key, new LongWritable(max));
            context.write(key, new LongWritable(min));
```python
#spark
case class ka(time:String,word: String, count: Int)

  def main(args: Array[String]): Unit = {
    System.setProperty("hadoop.home.dir", "C:\\Users\\hw\\Desktop\\中级实战\\资料\\hadoop-2.9.2")
//    val conf: SparkConf = new SparkConf().setAppName("spark_kafka").setMaster("local[2]")
    val sess=SparkSession.builder().appName("spark_kafka").master("local[2]").getOrCreate()
    val sc =sess.sparkContext
    sc.setLogLevel("ERROR")
    //拉取时间
    val ssc = new StreamingContext(sc, Seconds(5))

    //kafka配置
    val kafkaParams = Map[String, Object](
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> "master:9092",
      ConsumerConfig.GROUP_ID_CONFIG -> "mygroup",
      ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG -> classOf[StringDeserializer],
      ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG -> classOf[StringDeserializer])
    //主题
    val topics: Array[String] = Array("order")
    //kafka数据流
    val stream: InputDStream[ConsumerRecord[String, String]] = {
      KafkaUtils.createDirectStream[String, String](
        ssc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
      )
    }
    import sess.implicits._

    val prop=new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","123456")
    prop.setProperty("driver","com.mysql.jdbc.Driver")
    val url="jdbc:mysql://localhost/test"

    stream.foreachRDD(
      x => {
        println("Time:" + new Date())
        val value: RDD[(String, String,String)] = x.map(record => (record.key, record.value,record.value))
        val filter = value.filter(!_._2.equals(""))
        val words = filter.flatMap(_._2.split(" ")).map(x => (x, 1))
        val count = words.reduceByKey(_ + _)
        val sdf=new SimpleDateFormat("YY:mm:dd HH:mm:ss")
        count.foreach(println)
        count.map(x=>ka(sdf.format(new Date()),x._1,x._2)).toDF()
          .write.mode(SaveMode.Append).jdbc(url,"20205080910068朱汉威",prop)

      })

    println("----------开始计算-------------")
    ssc.start()
    println("----------任务正在执行-------------")
    ssc.awaitTermination()
  }

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

hwaaaaaa 2023-06-12 11:14

关注

#数据库可视化
import DBHelpe
import pandas as pd
import  matplotlib.pyplot as plt
import warnings
#忽略警告信息
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif']=['SimHei']
conn=DBHelpe.MyDBHelpe()
plt.figure()#创建一个画布
print(conn)
#读取sql语句,sql文件
df=pd.read_sql('select *  from tb_lianjia',con=conn.conn)
df=df.groupby(by='type')['price'].sum()
print(df)
plt.subplot(2,2,1)#分割成2*2的矩阵，矩阵的第一个画柱状图
df.plot(kind='bar')
#通过sql语句进行可视化

df1=pd.read_sql("SELECT address,count(*)as 数量 FROM tb_lianjia GROUP BY address ORDER BY 数量 DESC LIMIT 10",con=conn.conn)
lables=df1['address']
x=df1['数量']
plt.subplot(2,2,2)
plt.pie(x,labels=lables,autopct='%2.f%%')
#根据不同地区平均价格画条形图
df2=pd.read_sql("SELECT address,avg(price) as 平均价格 from tb_lianjia GROUP BY address ORDER BY  平均价格 DESC LIMIT 20",con=conn.conn)
plt.subplot(2,2,3)
plt.barh(df2['address'],df2['平均价格'],color='r')
plt.show()

'''
爬取链家二手房数据，保存到MySQL数据库中
id, title,address,type,area,price,model
'''
import requests
import DBHelpe
from bs4 import  BeautifulSoup
import time
import lxml
db=DBHelpe.MyDBHelpe()
num=int(input("请输入你爬取的页数："))
for page in range(num):
    url="https://sh.lianjia.com/ershoufang/pg{}/".format(page+1)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
    page_text=requests.get(url,headers).text
    time.sleep(3)
    print("第"+str(page+1)+"页开始爬取完成！！！！！！")
    #解析源码
    soup=BeautifulSoup(page_text,'lxml')

    li_list=soup.find("ul",{"class":"sellListContent"}).find_all("li",{"class":"LOGCLICKDATA"})
    #获取每个字段数据
    for li in  li_list:
        title=li.find("div",{"class":"title"}).a.text
        print(title)
        address=li.find("div",{"class":"positionInfo"}).a.text
        #先找到父级div，在查询子的a标准
        address1 = li.find("div", {"class": "positionInfo"}).find_next("a").find_next_sibling("a").text
        print(address,address1)
        #3室2厅 | 128.33平米 | 南 | 简装 | 高楼层(共22层) | 2011年建 | 板楼
        #.......
        #保存到数据库
        sql="insert into tb_house(title,address,type,area,price,model) values('%s','%s','%s','%s','%s','%s')"%(title,address+address1,)
        db.add(sql)


#MyDBHelpe
'''
面向对象进行封装,数据库操作类
'''
import pymysql
class MyDBHelpe:
    #初始化连接数据库
    def __init__(self):
        self.conn = pymysql.connect(host="localhost", port=3306, user="root", passwd="baidu123", database="domedb")
        #创建游标
        self.cur=self.conn.cursor()
    #销毁
    def __del__(self):
        self.cur.close()
        self.conn.close()
        print("数据库连接已关闭！！！！！！")
    #添加方法
    def add(self,sql):
        self.cur.execute(sql)
        # 把游标的操作提交到数据库
        self.conn.commit()  # 增加，删除，修改需要
        print("数据插入成功！！！！")
    def update(self,sql):
        self.cur.execute(sql)
        # 把游标的操作提交到数据库
        self.conn.commit()  # 增加，删除，修改需要
        print("数据更新成功！！！！")
    def delete(self,sql):
        self.cur.execute(sql)
        # 把游标的操作提交到数据库
        self.conn.commit()  # 增加，删除，修改需要
        print("数据删除成功！！！！")

    #查询所有记录
    def findAll(self,sql):
        self.cur.execute(sql)
        data=self.cur.fetchall()
        return  data

报告相同问题？

关注问题

大数据开发面试知识点总结
2021-02-09 11:22

GoAI的博客本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。
数据驱动：大数据领域数据产品的运营之道
2025-04-26 15:01

光子AI的博客在当今数字化时代，大数据已经成为企业和组织的重要资产。数据产品作为大数据的载体，其运营的好坏直接关系到数据价值的挖掘和实现。本文的目的在于深入探讨大数据领域数据产品的数据驱动运营方法，为数据产品的运营...
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客如果是Hive或者Spark有merge功能自动帮助我们合并。（4）有小文件场景开启JVM重用；如果没有小文件，不要开启JVM重用，因为会一直占用使用到的Task卡槽，直到任务完成才释放。 JVM重用可以使得JVM实例在同一个job中...
基于spark法律服务大数据智能推荐
2023-05-02 14:59

小明爱學習的博客 spark大数据智能推荐
大数据领域 ETL 在金融行业的应用案例
2025-10-16 22:00

AI软件工程实践的博客 大数据时代，金融行业如何用ETL破解“数据割裂”难题？5个真实案例讲透落地实践引言：金融行业的“数据痛”，比你想象的更尖锐早上9点，某银行零售部的小明打开电脑，想给高端客户推荐新的理财项目——但他翻了3个...
大数据面试题2
2023-05-20 16:39

添柴少年yyds的博客注解的使用和内部原理（2）Spark 任务划分，Job提交流程；（3）根据进程名杀死进程；查看端口号占用情况；（4）Flume如何保证数据不丢；TailDir如何保证数据完整性；记不清了，是读取一个Postion（5）Flink如何保证...
【两万字总结】Spark安装部署与入门
2021-11-23 10:28

我想养只猫 •͓͡•ʔ的博客 Spark 介绍核心概念 ...例如一次排序测试中，对 100TB 数据进行排序，Spark 比 Hadoop 快三倍，并且只需要十分之一的机器。 Spark 集群目前最大的可以达到 8000 节点，处理的数据达到 PB 级别，在互联网企
大数据领域的自然语言处理应用
2025-09-02 22:01

AI量化价值投资入门到精通的博客这就是“大数据”带来的挑战——数据太多，人工处理不过来。而自然语言处理（NLP）就是解决这个问题的“智能助手”：它能让计算机“读懂”文字，自动总结客户的喜怒哀乐，甚至帮你生成回复。用“小学生能听懂”的...
我们是如何测试人工智能的（一）基础效果篇
2024-01-09 19:20

孙高飞的博客详细介绍如何测试一款人工智能产品，帮助该领域中的测试人员和对人工智能感兴趣的测试人员了解相关测试方案
面经总结(大数据开发相关)
2021-04-07 17:56

举个栗く的博客数据仓库综合 1. OneData方法论的标准: 3....而Hive在使用Spark时，将HiveQL语句转换成Spark任务进行执行。影响不同：（1）运行速度 Spark相对于MR具有更高的速度，因此可以更快地完成任务。这意味着使用Spark可以...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月5日

test，百度，spark，测试不用回答

1条回答 默认 最新

问题事件

1条回答默认最新