【单选题】val pairRDD1 = sc. parallelize(Array(("spark",1),("spark",2),("hadoop",3),("hadoop",5))) val pairRDD2 = sc.parallelize(Array(("spark","fast"))) pairRDD1.join(pairRDD2) 上述语句执行以后,pairRDD1这个RDD中所包含的元素是
A.
(“spark”,(3,”fast”)), (“spark”,(5,”fast”))
B.
(“hadoop”,(3,”fast”)), (“hadoop”,(5,”fast”))
C.
(“spark”,(1,”fast”)), (“spark”,(2,”fast”))
D.
(“hadoop”,(2,”fast”)), (“hadoop”,(1,”fast”))
【多选题】下列关于 spark 中的 RDD 描述正确的有
A.
RDD ( Resilient Distributed Dataset )叫做弹性分布式数据集,是 spark 中最基本的数据抽象
C.
Destributed :分布式,可以并行在集群计算
D.
Dataset :就是一个集合,用于存放数据的
【单选题】Spark的计算发生在RDD的( )操作。
【单选题】在Spark中,调用RDD的()方法,可以将RDD转换为DataFrame对象。
【简答题】设 求 ,argz及Argz,并写出z的三角形式和指数形式.
【简答题】某企业产生的甲产品有关成本项目影响因素如下表所示: 成本项目 金额 因素变化 直接材料 72 提价 8% ,耗用量节约 12% 直接人工 58 增长 10% ,产量增加 15% 制造费用 40 增加 7% ,产量增加 15% 基期单位成本 170 计算计划期甲产品的单位成本及各因素影响的成本降低率。
【简答题】Spark 的核心是 RDD ,分为两种,分别是 ( ) RDD 和 ( ) RDD。
【单选题】val pairRDD1 = sc. parallelize(Array(("spark",1),("spark",2),("hadoop",3),("hadoop",5))) val pairRDD2 = sc.parallelize(Array(("spark","fast"))) pairRDD1.join(pairRDD2) 上述语句执行以后, pairRDD1 这个 RDD 中所包含...
A.
(“spark”,(1,”fast”)), (“spark”,(2,”fast”))
B.
(“hadoop”,(2,”fast”)), (“hadoop”,(1,”fast”))
C.
(“hadoop”,(3,”fast”)), (“hadoop”,(5,”fast”))
D.
(“spark”,(3,”fast”)), (“spark”,(5,”fast”))