当前位置:首页>开发>正文

求问怎么设置sparksql读取hive的数据库 求问sparksql怎么用SQL语句实现查找分位数

2023-04-18 23:31:26 互联网 未知 开发

 求问怎么设置sparksql读取hive的数据库 求问sparksql怎么用SQL语句实现查找分位数

求问怎么设置sparksql读取hive的数据库

求问怎么设置sparksql读取hive的数据库
使用maven进行打包:
打包命令:
mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

求问sparksql怎么用SQL语句实现查找分位数

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。   
第三四分位数与第一四分位数的差距又称四分位距
下面展示求Q1的步骤:1、将数据从大到小排序,计为数组a(1 to n),n代表数据的长度
2、确定四分位数的位置:b=(n 1)/4=4.25,b的整数部分计为c
b的小数部分计为d。
3、计算Q1:Q1=a(c) [a(c 1)-a(c)]*d=a(4) [a(5)-a(4)] *0.2=29 (31-29)*0.25=29.Q2与Q3的求法类似,四分位差=Q3-Q1