web-dev-qa-db-ja.com

RDD.takeOrdered()の順序を逆にする方法は?

SparkのRDDのtakeOrdered()メソッドの順序を逆にする構文は何ですか?

ボーナスポイントの場合、SparkでのRDDのカスタムオーダーの構文は何ですか?

13
StackG

逆順

val seq = Seq(3,9,2,3,5,4)
val rdd = sc.parallelize(seq,2)
rdd.takeOrdered(2)(Ordering[Int].reverse)

結果はArray(9,5)になります

カスタムオーダー

年齢別に並べ替えます。

case class Person(name:String, age:Int)
val people = Array(Person("bob", 30), Person("ann", 32), Person("carl", 19))
val rdd = sc.parallelize(people,2)
rdd.takeOrdered(1)(Ordering[Int].reverse.on(x=>x.age))

結果はArray(Person(ann、32))になります

27
gasparms
val rdd1 = sc.parallelize(List(("Hadoop PIG Hive"), ("Hive PIG PIG Hadoop"), ("Hadoop Hadoop Hadoop")))

val rdd2 = rdd1.flatMap(x => x.split(" ")).map(x => (x,1))

val rdd3 = rdd2.reduceByKey((x,y) => (x+y))

//逆順(降順)

rdd3.takeOrdered(3)(Ordering[Int].reverse.on(x=>x._2))

出力:

res0: Array[(String, Int)] = Array((Hadoop,5), (PIG,3), (Hive,2))

//昇順

rdd3.takeOrdered(3)(Ordering[Int].on(x=>x._2))

出力:

res1: Array[(String, Int)] = Array((Hive,2), (PIG,3), (Hadoop,5))
8
Prabhat Jain