web-dev-qa-db-ja.com

spark-hive

Spark-SubmitYARNクラスターモードを使用するときにHiveサイトがありません

Apache Spark 2.3.1 with Hive metastore 3.1.0

HiveStructのすべての列を選択します

Spark Hiveの動的パーティションテーブルとしてのデータフレーム

spark)のスキーマを使用してHive外部テーブルを作成します

sparkからリモートHiveサーバーに接続する方法

Sparkプロパティ(Spark 1.6)を通じてSpark-ShellでHiveサポートを有効または無効にする方法は?

SparseVector列を持つRDDをVectorとして列を持つDataFrameに変換するにはどうすればよいですか?

PySparkで複数の機能をエンコードして組み立てる

Apache Spark 2.0:Java.lang.UnsupportedOperationException:Java.time.LocalDateのエンコーダーが見つかりません

scalaリストをDataFrameまたはDataSetに変換

データフレーム行を更新された行にマップしようとしたときにエンコーダエラーが発生しました

Spark DataFrame:orderByの後のgroupByはその順序を維持しますか?

Scala:Spark SQL to_date(unix_timestamp)がNULLを返す

Spark 2.0データセットとデータフレーム

「spark.yarn.executor.memoryOverhead」設定の値は?

Spark DataSetフィルターのパフォーマンス

DataFrameからLibSVM形式にデータを準備する方法は?

行タイプのエンコーダーSpark Datasets

sparkヒープメモリ構成とタングステンがオフ

列全体の大文字小文字を小文字に変更する方法は?

データフレームをlibsvm形式に変換します

ドットの列名spark

Sparkのさまざまな結合タイプは何ですか?

Spark構造化ストリーミング-静的データセットをストリーミングデータセットに結合する

Spark dataframe / datasetの効率的な結合のためのパーティションデータ

spark DFまたはDS?

DataFrameをHiveに直接保存する方法は?

Sparkで、複数の小さなファイルをいくつかの大きなファイルにマージします

保存SparkデータフレームをHiveに:「寄木細工はSequenceFileではない」ためテーブルを読み取れません

SparkSQLでプログラムでHiveメタストアに接続する方法は?

Apache Spark SQLContext vs HiveContextの違いは何ですか?

データ型doubleの列のspark sqlContextで中央値を計算する方法

Spark SQLでcollect_listおよびcollect_setを使用します

^ A(つまり\ 001)を区切り文字として使用するcsvをspark-csvで解析する方法は?

AuthorizationException:ユーザーがユーザーを偽装することは許可されていません

Spark SQLでパーティションサイズを制御する方法

Spark SQLの既存のHiveパーマネントUDFを使用できません

HiveサポートでSparkSessionを作成する方法(「Hiveクラスが見つかりません」で失敗します)

配列内の要素の範囲を選択するspark sql

PySpark:2つの条件と3つの結果を持つwithColumn()

SparkSQL-寄せ木張りファイルを直接読み込む

Spark DataFrameをHive内部テーブルに挿入するには?

Spark SQLはHiveMetastoreを使用しますか?

Spark SQLでのSQLの記述とDataframe APIの使用

パーティション化されたspark= Datasetの一部のパーティションのみを上書きする

Spark 2:SparkSession enableHiveSupport()が呼び出されたときの動作

JDBCソースからデータを移行するときに、パーティションを最適化する方法は?

spark構造化ストリーミングDataFrameをHive外部テーブル/場所に挿入する方法は?

Spark2は、寄木細工のハイブテーブルにデータフレームを書くことができません:HiveFileFormat`。指定された形式 `parquetfileformat`と一致しません

Pysparkを使用してHiveメタストアにテーブルが存在するかどうかを確認する

java.lang.RuntimeException:org.Apache.hadoop.Hive.metastore.HiveMetaStoreClientをインスタンス化できません

HIVEで日付文字列をUTCから特定のタイムゾーンに変換する方法は?

Apache Hive MSCK REPAIR TABLE新しいパーティションは追加されません

タイムスタンプをHiveに挿入します

Hiveの「InputFormat、OutputFormatとして保存」と「として保存」の違い

Hive(get_json_object)またはjson serdeで構造体配列をクエリする方法

ハイブですべてのパーティションを一度に削除するにはどうすればよいですか?

列名を取得してハイブに入力する方法

Hiveサービス、HiveServer2&MetaStoreサービス?

Spark SQLで変数/パラメータを動的にバインドしますか?

sparkのデータフレーム列の更新

Apacheでシャッフル流出を最適化する方法Spark application

Spark MLで分類するための正しいデータフレームを作成する方法

Apacheの行/列の値を更新する方法Spark DataFrame?

SparkのDataFrame、Dataset、およびRDDの違い

spark-csvパッケージのinferSchema

Sparkデータフレームをリストにグループ化

pySparkデータフレームに行IDを追加する方法

ドロップsparkキャッシュからのデータフレーム

spark-mlでカテゴリ機能を処理する方法は?

Spark MLLibのTFVector RDDからWordの詳細を取得する方法は?

モデルをMLパイプラインからS3またはHDFSに保存する方法は?

DataFrame結合の最適化-ブロードキャストハッシュ結合

ScalaでDataFrameをRDDに変換する方法は?

Spark DataFrame in PythonからlabeledPointsを作成します

1つのsparkデータフレームを別のデータフレームに対してフィルタリングする方法

ネストされた列をSpark DataFrameから削除する

RandomForestモデルを相互検証する方法は?

DataFrame / Dataset groupBy動作/最適化

将来の使用のためにMLモデルを保存する

RDD [org.Apache.spark.sql.Row]をRDD [org.Apache.spark.mllib.linalg.Vector]に変換しています

Sparkデータフレーム列の最大値を取得する最良の方法

DataFrameで複数の特徴ベクトルをマージする方法は?

PysparkとPCA:このPCAの固有ベクトルを抽出するにはどうすればよいですか?彼らが説明している分散の量をどのように計算できますか?

Apache Spark不足している機能に遭遇すると、NullPointerExceptionをスローします

Spark、Scala、DataFrame:特徴ベクトルを作成する

ベクトルの列を合計するカスタム集計関数を定義する方法は?

SparkSQL HiveContextを使用した「INSERT INTO ...」

Spark DataFramesを使用してJSONデータ列を照会する方法は?

ApacheでDataFrameをDatasetに変換する方法Spark?

Spark DataFrameでnull値を空の配列に変換します

ケースクラスを使用してJSONをエンコードすると、「データセットに格納されているタイプのエンコーダーが見つかりません」というエラーが表示されるのはなぜですか?

Spark:条件付きでデータフレームに列を追加します

sparkデータフレームから複数の列を選択するためのリストの展開

SparkのHashingTFとCountVectorizerの違いは何ですか?

sparkデータフレームのフィルターの複数の条件

Spark-Thirft-HiveInteractorを使用して論理/物理クエリを実行するにはどうすればよいですか

spark Dataframeのすべての列名の空白を置き換える

Sparkデータフレームを使用したユニットテスト