web-dev-qa-db-ja.com

Apache Arrow Java APIドキュメント

Apache ArrowAPIの有用なドキュメントまたは例を探しています。誰かがいくつかの有用なリソースを指摘できますか?私はいくつかのブログとJavaドキュメント(あまり多くは語っていません))しか見つけることができませんでした。

私が読んだところによると、これは高速分析のための標準的なインメモリ列型データベースです。データを矢印メモリにロードして操作することは可能ですか?

20
Rijo Joseph

通過するオブジェクトを使用して通信する必要がある2つのアプリケーション間の仲介者として矢印を使用する必要があります。

Arrowはスタンドアロンのソフトウェアではなく、特定のシステム内の分析を高速化し、Arrow対応システムが低いオーバーヘッドでデータを交換できるようにするために使用されるコンポーネントです。

たとえば、Arrowは cluster 内のデータ移動のパフォーマンスを向上させます。

例については、 tests を参照してください。

  @Test
  public void test() throws Exception {
    BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
    File testInFile = testFolder.newFile("testIn.arrow");
    File testOutFile = testFolder.newFile("testOut.arrow");

    writeInput(testInFile, allocator);

    String[] args = {"-i", testInFile.getAbsolutePath(), "-o", testOutFile.getAbsolutePath()};
    int result = new FileRoundtrip(System.out, System.err).run(args);
    assertEquals(0, result);

    validateOutput(testOutFile, allocator);
}

また Apache Parquet それを使用します。矢印オブジェクトから/への変換例があります。

MessageType parquet = converter.fromArrow(allTypesArrowSchema).getParquetSchema();

Schema arrow = converter.fromParquet(supportedTypesParquetSchema).getArrowSchema();
2
user7294900