程序员

spark DataFrame数据集 sql风格 和 dsl Api风格需求练习

作者:admin 2021-04-18 我要评论

需求:求每个城市中成绩最高的两个人的信息 数据: csv格式 id , name , age , sex , city , score 1 , 张飞 , 21 , M , 北京 , 80 2 , 关羽 , 23 , M , 北京 , 82...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

需求:求每个城市中成绩最高的两个人的信息

数据:

csv格式

id,name,age,sex,city,score
1,张飞,21,M,北京,80
2,关羽,23,M,北京,82
7,周瑜,24,M,北京,85
3,赵云,20,F,上海,88
4,刘备,26,M,上海,83
8,孙权,26,M,上海,78
5,曹操,30,F,深圳,90.8
6,孔明,35,F,深圳,77.8
9,吕布,28,M,深圳,98

代码:

package createdf

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.expressions.{Window, WindowSpec}
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * @date :2021/4/2 18:38
  * @author :xiaotao
  * @description :求每个城市中成绩最高的两个人的信息
  */
object DataFrameDemo {
  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]): Unit = {
    val ss: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()

    sqlTest(ss)
    dslApiTest(ss)

    ss.stop()
  }

  def sqlTest(ss: SparkSession): Unit = {
    val df: DataFrame = ss.read.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ").option("header", true).csv("D:\\doc\\stu2.csv")

    df.createTempView("tmp")

    ss.sql(
      """
        |select
        |city,
        |name
        |from
        |(
        |     select
        |     city,
        |     name,
        |     row_number() over(partition by city order by score desc) as rns
        |     from tmp
        |) o
        |where rns <=2
      """.stripMargin).show()
  }

  def dslApiTest(ss: SparkSession): Unit = {
    val df: DataFrame = ss.read.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ").option("header", true).csv("D:doc\\stu2.csv")
    import ss.implicits._
    import org.apache.spark.sql.functions._

    val window: WindowSpec = Window.partitionBy('city).orderBy('score.desc)

    df.select('city, 'name, row_number().over(window) as "rns").where('rns <= 2).drop('rns).show()
  }

}

控制台:

E:\develop\Java\jdk1.8.0_171\bin\java.exe ...
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
+----+----+
|city|name|
+----+----+
|  深圳|  吕布|
|  深圳|  曹操|
|  上海|  赵云|
|  上海|  刘备|
|  北京|  周瑜|
|  北京|  关羽|
+----+----+

+----+----+
|city|name|
+----+----+
|  深圳|  吕布|
|  深圳|  曹操|
|  上海|  赵云|
|  上海|  刘备|
|  北京|  周瑜|
|  北京|  关羽|
+----+----+


Process finished with exit code 0

;原文链接:https://blog.csdn.net/weixin_47699191/article/details/115406418

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • 四两拨千斤——你不知道的VScode编码Ty

    四两拨千斤——你不知道的VScode编码Ty

  • 我是如何在 Vue 项目中做代码分割的

    我是如何在 Vue 项目中做代码分割的

  • position:sticky 粘性定位的几种巧妙应

    position:sticky 粘性定位的几种巧妙应

  • 从零到一搭建React组件库

    从零到一搭建React组件库

腾讯云代理商
海外云服务器