sparkを使用してhbaseから読み取る方法

Question

以下のコードはhbaseから読み取り、それをjson構造に変換し、schemaRDDに変換しますが、問題は、json文字列を格納してからjavaRDDに渡すというusing Listであり、約100 GBのデータマスターにはメモリ内のデータがロードされます。 hbaseからデータをロードし、操作を実行してJavaRDDに変換する正しい方法は何ですか。

package hbase_reader; import Java.io.IOException; import Java.io.Serializable; import Java.util.ArrayList; import Java.util.List; import org.Apache.spark.api.Java.JavaPairRDD; import org.Apache.spark.api.Java.JavaRDD; import org.Apache.spark.api.Java.JavaSparkContext; import org.Apache.spark.rdd.RDD; import org.Apache.spark.sql.api.Java.JavaSQLContext; import org.Apache.spark.sql.api.Java.JavaSchemaRDD; import org.Apache.commons.cli.ParseException; import org.Apache.hadoop.hbase.HBaseConfiguration; import org.Apache.hadoop.hbase.KeyValue; import org.Apache.hadoop.hbase.client.HTable; import org.Apache.hadoop.hbase.client.Result; import org.Apache.hadoop.hbase.client.ResultScanner; import org.Apache.hadoop.hbase.client.Scan; import org.Apache.hadoop.hbase.io.ImmutableBytesWritable; import org.Apache.hadoop.hbase.mapreduce.TableInputFormat; import org.Apache.hadoop.hbase.util.Bytes; import org.Apache.hadoop.io.Text; import org.Apache.spark.SparkConf; import scala.Function1; import scala.Tuple2; import scala.runtime.AbstractFunction1; import com.google.common.collect.Lists; public class hbase_reader { public static void main(String[] args) throws IOException, ParseException { List<String> jars = Lists.newArrayList(""); SparkConf spconf = new SparkConf(); spconf.setMaster("local[2]"); spconf.setAppName("HBase"); //spconf.setSparkHome("/opt/human/opt/spark-0.9.0-hdp1"); spconf.setJars(jars.toArray(new String[jars.size()])); JavaSparkContext sc = new JavaSparkContext(spconf); //spconf.set("spark.executor.memory", "1g"); JavaSQLContext jsql = new JavaSQLContext(sc); HBaseConfiguration conf = new HBaseConfiguration(); String tableName = "HBase.CounData1_Raw_Min1"; HTable table = new HTable(conf,tableName); try { ResultScanner scanner = table.getScanner(new Scan()); List<String> jsonList = new ArrayList<String>(); String json = null; for(Result rowResult:scanner) { json = ""; String rowKey = Bytes.toString(rowResult.getRow()); for(byte[] s1:rowResult.getMap().keySet()) { String s1_str = Bytes.toString(s1); String jsonSame = ""; for(byte[] s2:rowResult.getMap().get(s1).keySet()) { String s2_str = Bytes.toString(s2); for(long s3:rowResult.getMap().get(s1).get(s2).keySet()) { String s3_str = new String(rowResult.getMap().get(s1).get(s2).get(s3)); jsonSame += "\""+s2_str+"\":"+s3_str+","; } } jsonSame = jsonSame.substring(0,jsonSame.length()-1); json += "\""+s1_str+"\""+":{"+jsonSame+"}"+","; } json = json.substring(0,json.length()-1); json = "{\"RowKey\":\""+rowKey+"\","+json+"}"; jsonList.add(json); } JavaRDD<String> jsonRDD = sc.parallelize(jsonList); JavaSchemaRDD schemaRDD = jsql.jsonRDD(jsonRDD); System.out.println(schemaRDD.take(2)); } finally { table.close(); } } }

Murtaza Kanchwala · Accepted Answer

Spark（Scala）を使用してHBaseデータを読み取る基本的な例。これはJavaで書くこともできます。

import org.Apache.hadoop.hbase.client.{HBaseAdmin, Result} import org.Apache.hadoop.hbase.{ HBaseConfiguration, HTableDescriptor } import org.Apache.hadoop.hbase.mapreduce.TableInputFormat import org.Apache.hadoop.hbase.io.ImmutableBytesWritable import org.Apache.spark._ object HBaseRead { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("HBaseRead").setMaster("local[2]") val sc = new SparkContext(sparkConf) val conf = HBaseConfiguration.create() val tableName = "table1" System.setProperty("user.name", "hdfs") System.setProperty("HADOOP_USER_NAME", "hdfs") conf.set("hbase.master", "localhost:60000") conf.setInt("timeout", 120000) conf.set("hbase.zookeeper.quorum", "localhost") conf.set("zookeeper.znode.parent", "/hbase-unsecure") conf.set(TableInputFormat.INPUT_TABLE, tableName) val admin = new HBaseAdmin(conf) if (!admin.isTableAvailable(tableName)) { val tableDesc = new HTableDescriptor(tableName) admin.createTable(tableDesc) } val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) println("Number of Records found : " + hBaseRDD.count()) sc.stop() } }

2016年更新

Spark 1.0.x +以降、Spark-HBase Connectorも使用できるようになりました。

含めるMavenの依存関係：

<dependency> <groupId>it.nerdammer.bigdata</groupId> <artifactId>spark-hbase-connector_2.10</artifactId> <version>1.0.3</version> // Version can be changed as per your Spark version, I am using Spark 1.6.x </dependency>

以下の同じサンプルコードを見つけます。

import org.Apache.spark._ import it.nerdammer.spark.hbase._ object HBaseRead extends App { val sparkConf = new SparkConf().setAppName("Spark-HBase").setMaster("local[4]") sparkConf.set("spark.hbase.Host", "<YourHostnameOnly>") //e.g. 192.168.1.1 or localhost or your hostanme val sc = new SparkContext(sparkConf) // For Example If you have an HBase Table as 'Document' with ColumnFamily 'SMPL' and qualifier as 'DocID, Title' then: val docRdd = sc.hbaseTable[(Option[String], Option[String])]("Document") .select("DocID", "Title").inColumnFamily("SMPL") println("Number of Records found : " + docRdd .count()) }

更新-2017

Spark 1.6.x +以降、SHC Connectorも使用できるようになりました（HortonworksまたはHDPユーザー）：

含めるMavenの依存関係：

 <dependency> <groupId>com.hortonworks</groupId> <artifactId>shc</artifactId> <version>1.0.0-2.0-s_2.11</version> // Version depends on the Spark version and is supported upto Spark 2.x </dependency>

このコネクタを使用する主な利点は、スキーマ定義に柔軟性があり、nerdammer/spark-hbase-connectorのようにHardcoded paramsを必要としないことです。また、Spark 2.xをサポートしているため、このコネクタは非常に柔軟であり、IssueとPRでエンドツーエンドのサポートを提供することも覚えておいてください。

最新のREADMEおよびサンプルの以下のリポジトリパスを見つけます。

Hortonworks Spark HBase Connector

このRDDをDataFramesに変換してSQLを実行することも、これらのDatasetまたはDataFramesをユーザー定義のJava PojoまたはCaseクラスにマッピングすることもできます。それは素晴らしい作品です。

他に何か必要な場合は、以下にコメントしてください。

Averman · Answer

私はhbaseから読み、json操作をすべてスパークで行うことを好みます。
Sparkは、HBaseを含むhadoopストレージからデータを読み取るための JavaSparkContext.newAPIHadoopRDD 機能を提供します。 HBase構成、テーブル名、スキャンを構成パラメーターとテーブル入力形式で提供する必要があり、そのキーと値は

table input format classとそのjobパラメーターを使用して、テーブル名とスキャン構成を提供できます

例：

conf.set(TableInputFormat.INPUT_TABLE, "tablename"); JavaPairRDD<ImmutableBytesWritable, Result> data = jsc.newAPIHadoopRDD(conf, TableInputFormat.class,ImmutableBytesWritable.class, Result.class);

その後、sparkでjson操作を行うことができます。 sparkはメモリがいっぱいのときに再計算を行うことができるため、再計算部分（cmiiw）に必要なデータのみをロードするため、データサイズを気にする必要はありません。

Zhang Kan · Answer

スキャンを追加する方法に関するコメントを追加するだけです：

TableInputFormatには次の属性があります。

SCAN_ROW_START

SCAN_ROW_STOP

conf.set(TableInputFormat.SCAN_ROW_START, "startrowkey"); conf.set(TableInputFormat.SCAN_ROW_STOP, "stoprowkey");

Anton Okolnychyi · Answer

質問は新しいものではないので、現時点では他にもいくつかの代替手段があります。

hbase-spark 、HBaseリポジトリで直接利用可能なモジュール
Spark-on-HBase Hortonworksによる

最初のプロジェクトについてはあまり知りませんが、Spark 2.xをサポートしていないようです。ただし、Spark 1.6.xのRDDレベルでの豊富なサポートがあります。

一方、Spark-on-HBaseには、Spark 2.0および今後のSpark 2.1のブランチがあります。このプロジェクトはDataset/DataFrame APIに焦点を合わせているため、非常に有望です。内部では、標準のSpark Datasource APIを実装し、Spark Catalystエンジンを活用してクエリを最適化します。開発者は here パーティションのプルーニング、列のプルーニング、述語のプッシュダウン、およびデータの局所性の実現が可能であると主張しています。

この repo およびSpark 2.0.2からのcom.hortonworks:shc:1.0.0-2.0-s_2.11アーティファクトを使用する簡単な例を次に示します。

case class Record(col0: Int, col1: Int, col2: Boolean) val spark = SparkSession .builder() .appName("Spark HBase Example") .master("local[4]") .getOrCreate() def catalog = s"""{ |"table":{"namespace":"default", "name":"table1"}, |"rowkey":"key", |"columns":{ |"col0":{"cf":"rowkey", "col":"key", "type":"int"}, |"col1":{"cf":"cf1", "col":"col1", "type":"int"}, |"col2":{"cf":"cf2", "col":"col2", "type":"boolean"} |} |}""".stripMargin val artificialData = (0 to 100).map(number => Record(number, number, number % 2 == 0)) // write spark .createDataFrame(artificialData) .write .option(HBaseTableCatalog.tableCatalog, catalog) .option(HBaseTableCatalog.newTable, "5") .format("org.Apache.spark.sql.execution.datasources.hbase") .save() // read val df = spark .read .option(HBaseTableCatalog.tableCatalog, catalog) .format("org.Apache.spark.sql.execution.datasources.hbase") .load() df.count()