web-dev-qa-db-ja.com

parquet

JSONオブジェクトのファイルをParquetファイルに変換します

CSVファイルを寄木細工に変換する方法

寄木細工の索引

寄木細工のファイルをSparkの多くのパーティションに分割する方法は?

スタンドアロンで寄木細工のファイルを読み取る方法Javaコード?

Apache parquetファイルの値を更新する

アブロ対寄木細工

Sparkでネストされたコレクションを読み取る方法

Rの寄木張りを読み取り、R DataFrameに変換するにはどうすればよいですか?

Spark)で同時にいくつかの寄木細工のファイルを読み取ります

JavaまたはScalaの寄木細工のファイルとの間でMap <String、Object>を読み書きする方法は?

ヤーンクライアントで(他のジョブと比較して)実行時間が長すぎるタスクに対処するにはどうすればよいですか?

寄木細工vs ORC vs ORC with Snappy

Pythonを使用してParquetファイルを作成する方法は?

寄木細工のファイルのメタデータを使用してHiveテーブルを作成する

ParquetファイルをPandas DataFrameに読み込む方法は?

寄木細工のファイルからスキーマ/列名を取得するにはどうすればよいですか?

ParquetファイルをHiveに直接読み込むことはできますか?

Apache Sparkを使用してJSONファイルを寄木細工に変換する方法

Apache Parquetがフッターを読み取れませんでした:Java.io.IOException:

新しいデータをパーティション化された寄木細工のファイルに追加する

Spark SQL-gzip、snappy、lzo圧縮形式の違い

Spark例外:行の書き込み中にタスクが失敗しました

コマンドラインから寄木を調べる

他のフォーマットと比較した寄木細工フォーマットの長所と短所は何ですか?

Sparkを使用してs3a経由で寄木細工のファイルをs3に書き込むのは非常に遅い

Pysparkの複数のディレクトリから寄木細工のファイルを読み取る

寄木細工のファイルのメタデータを生成する

Cloudera 5.6:Parquetは日付をサポートしていません。 Hive-6384を参照してください

寄木細工の形式でのスキーマの進化

Linuxまたはhdfsコマンドを使用して、複数の寄木細工ファイルを単一の寄木細工ファイルにマージする方法

複数のsparkジョブは、パーティショニングを使用して寄木細工のデータを同じベースパスに追加します

出力ファイルのサイズをどのように制御しますか?

既存の寄木細工のファイルにデータを追加する方法

Spark SQL saveAsTableは、パーティションが指定されている場合、Hiveと互換性がありません

寄木細工のファイルをcsvにコピーおよび変換する方法

Sparkは、パーティション化されたデータでもすべての葉ノードをリストします

sparkパーティションが大きくなると寄木細工の書き込みが遅くなる

Spark 2.0は 'DirectParquetOutputCommitter'を非推奨にします、それなしで生きる方法は?

SparkはS3の寄木細工のファイルの真の列スキャンをサポートしていますか?

java

Java AVROに変換せずに(Spark、Hive、Pig、Impalaを使用せずに)

Apache Sparkネストされた構造内の不要なParquet列を読み取るのはなぜですか?

Sparkの高速寄木細工の行数

Apacheで寄木細工スキーマの変更を処理する方法Spark

Python:pandasデータフレームをパーケットファイルに保存

500GBのSQLテーブルをApacheParquetに変換する方法は?

AWSLambda関数で寄木細工のファイルを作成する

SPARK DataFrame:同じ列の値に基づいて各グループのデータフレームを効率的に分割する方法

新しいデータのないパーティションを削除せずにSpark=でDataFrameをパーティション分割して書き込む方法は?

1つの大きな寄木細工のファイルまたは多くの小さな寄木細工のファイルを用意する方が良いですか?

Spark 2.1でパーティション分割された寄木細工ファイルを保存するには?

ApacheのParquet Java API?

Project_Bank.csvはParquetファイルではありません。尾のマジックナンバーが予想される[80、65、82、49]が、見つかった[110、111、13、10]

Parquetファイルを読み込むときにスキーマを推測できません

python=

Hive-Varchar vs String、ストレージ形式がParquetファイル形式の場合に利点はありますか

Spark:パスが存在する場合のみファイルを読み込む

Python

AWS Kinesis firehoseからAWS S3に寄木細工を書く

PySpark:org.Apache.spark.sql.AnalysisException:属性名...に "、; {}()\ n \ t ="の中に無効な文字が含まれています。名前を変更するにはエイリアスを使用してください

Kafkaから読み取り、寄木細工でhdfsに書き込む

AWS s3バケットから寄木細工のデータを読み取る

pyarrowを使用して、寄木細工のファイルにどのように追加しますか?

AWS Lambda(Python 3)を使用してS3に保存されているParquetファイルを読み取る

pyarrowを使用してパーティション化された寄木細工のデータセットから特定のパーティションを読み取る

羽毛と寄木細工の違いは何ですか?

AWS Glue Crawlerはすべてのパーティションにテーブルを追加しますか?

sparkの寄木細工のファイルから特定の列を読み取る効率的な方法

Amazon RedshiftからAmazon S3へのParquet形式のデータファイルのオフロード

Spark + Parquet + Snappy:全体の圧縮率はspark

Apache Parquetを表示/編集するためのGUIツール

AWS Glueを使用して多くのCSVファイルをParquetに変換する方法

pd.DataFrameを保存するときに寄木細工のdtypeを強制する方法は?

sparkパッケージを使用せずにRで寄木細工のファイルを読み取る方法は?

pythonを使用してcsvを寄木細工ファイルに変換します

ParquetのPandasのバックエンドを識別する方法

Sparkは、読み取り時に寄木細工のパーティション分割を維持しますか?

WindowsでApache Parquetファイルを表示する方法は?

fastparquetとpyarrowの比較?

Spark save(write)parquet 1つのファイルのみ

フォルダ内の複数の寄木細工のファイルを読み取り、python)を使用して単一のcsvファイルに書き込みます

AWS Glueの動的フレームから寄木細工ファイルを上書きする

HBase vs Parquetファイルにデータを保存する

Spark DataFrame Repartition and Parquet Partition

pandas S3のデータフレームpython

MSCK REPAIR TABLEは舞台裏で何をしますか?なぜそれがとても遅いのですか?

Spark2は、寄木細工のハイブテーブルにデータフレームを書くことができません:HiveFileFormat`。指定された形式 `parquetfileformat`と一致しません

Pandas PySparkで作成された寄木細工のファイルを読み取ることができません

ParquetWriterを使用して、TIMESTAMP論理型(INT96)を寄木細工に書き込む方法は?

寄木細工ファイルに保存するときに新しいInt64 pandasオブジェクトの使用方法

Apacheの寄木細工と矢印の違い

JSONの結果をPythonでParquetに変換する方法は?

Hadoop Path APIなしでローカルParquetファイルを読み取る

どのようにしてAvroParquetWriterを使用し、AmazonS3 API経由でS3に書き込むことができますか?

InternalError_Spectrum Scanエラー。 S3からRedshift Copyコマンド

SparkなしでS3からParquetファイルを読み取る方法は? Java