spark1.2.1实现读取hbase的数据后怎么实现实时查询 spark上怎么讲读取的数据的某几行合并成一行 新手
spark1.2.1实现读取hbase的数据后怎么实现实时查询
调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:
1 JavaRDD myRDD = sc.parallelize(Arrays.asList(1,2,3))
Scala版本如下:
1 val myRDD= sc.parallelize(List(1,2,3))
这种方式很简单,很容易就可以将一个集合中的数据变成RDD的初始化值;更常见的是(2)、从文本中读取数据到RDD中,这个文本可以是纯文本文件、可以是sequence文件;可以存放在本地(file://)、可以存放在HDFS(hdfs://)上,还可以存放在S3上。其实对文件来说,Spark支持Hadoop所支持的所有文件类型和文件存放位置。
spark上怎么讲读取的数据的某几行合并成一行 新手
#spark中拼接RDD指定行数据,RDD合并成一行,python实现
from pyspark import SparkContext
sc = SparkContext("local", "My App")
rows = sc.parallelize([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
#获得指定行的数据,返回RDD
def getnum(s):
#全局行号迭代
global counter
#指定行号
global row
counter = if (counter ==row):
return s
counter = 0
row= #cache()缓存数据
x1 = rows.filter(getnum).cache()
row= x2 = rows.filter(getnum).cache()
#生成一个包含两个RDD中所有元素的RDD
xx = x1.union(x2)
print xx.collect()